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统计 学 是 研究 不 确定 性 现象 数量 规律 性 的 方法 论 科学 ,在 众多 的 专业 、 学 科 领 域 中 ， 都 起 着 重要 的 作用 。 应 
用 统计 学 的 概念 与 方法 来 处 理 商务 与 经 济 中 的 各 种 问题 ， 就 产生 了 商务 与 经 济 统计 学 ， 它 是 解决 商务 与 经 济 中 各 
种 问题 的 有 力 工具 之 一 。 

戴 维 R 安德森 等 五 位 教授 合 著 的 《商务 与 经 济 统计 》 是 一 本 很 有 特色 的 教材 ,， 我们 曾 将 该 书 的 第 7 版、 第 
9 版 、 第 10 版 和 第 11 版 译 成 中 文 介绍 给 我 国 的 读者 ， 并 得 到 众多 读者 的 认可 与 积极 的 反应 。2014 年 《商务 与 经 
济 统 计 》 的 第 12 版 闽 世 了 ， 我 们 愿 以 最 快 的 速度 再 次 将 新 版 的 中 文 译 本 奉献 给 读者 。 

新 版 的 《商务 与 经 济 统计 》 保 留 了 以 前 版 本 的 狼 述 风格 与 可 谈 性 ， 其 最 大 特色 是 应 用 性 强 。 本 书 以 大 量 数据 
为 基础 ， 介 绍 各 种 统计 方法 在 实际 中 的 应 用 ， 每 一 种 统计 方法 的 介绍 都 联系 一 个 案例 ， 并 配 有 大 量 的 例题 和 练 
习 。 新 版 的 实际 数据 基本 来 自 《 华 尔 街 日 报 》《 今 日 美国 》《 财 富 》 等 报刊 ， 这 使 得 学 生 不 但 对 这 些 统计 信息 产 
生 兴 趣 ， 而 且 还 学 习 了 统计 方法 及 其 应 用 。 

本 书 的 另 一 特色 是 通俗 易 懂 。 本 书 是 为 应 用 者 准备 的 ， 全 书 避 免 了 烦琐 的 数学 推导 ， 采 用 深入 浅 出 、 循 序 渐 
进 的 方法 系统 地 介绍 了 统计 学 的 知识 。 氢 述 严 谨 ， 基 础 坚实 ， 实 例 与 图 表 丰 富 ， 易 于 读者 理解 与 掌握 。 

本 书 在 每 章 附 录 中 给 出 了 利用 Minitab，Excel 和 StatTools 进行 各 种 统计 分 析 的 程序 步骤 ， 并 在 书后 的 附录 中 
详细 介绍 了 Excel 2010， 使 得 学 生 能 够 很 容易 地 利用 Minitab，Excel 和 StatTools 完成 各 种 统计 分 析 的 运算 。 

本 书 安排 了 大 是 练习 题 ， 用 来 帮助 学 生 更 好 地 理解 书 中 讲述 的 内 容 。 其 中 带 有 “ 庚 ” 号 的 练习 题 为 自 测 题 ， 
以 评价 学 生 对 书 中 介绍 的 各 种 统计 方法 的 掌握 程度 。 为 方便 读者 自学 ， 在 附录 C 中 给 出 了 部 分 习题 的 详细 解答 。 

作为 教材 ， 本 书 有 较 多 的 应 用 层次 ， 既 可 用 作 研 究 生 、MBA 和 本 科 生 的 教材 ， 岂 可 供 从 事 工商 行政 管理 和 经 
济 分 析 的 各 类 人 员 参 考 。 读 者 可 根据 时 间 和 需要 ， 有 选择 地 学 习 有 关内 容 。 

为 了 患 实 于 原著 ， 我 们 在 翻译 过 程 中 没有 做 任何 改动 。 考 虑 到 我 国 读者 的 习惯 ， 我 们 将 原 书 页 边 注释 改 为 了 
页 下 注 。 
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PREFACE 


未 书 是 发 商务 与 经 济 统计 》 -第 12 版 ， 示 版 我 们 欢迎 两 位 著名 的 学 者 ; 辛辛那提 大 学 的 水 弗 里 卫 卡 姆 和 路 易 
斯 安 那 理 工大 学 的 詹姆斯 J] 科 克 伦 ， 加 入 我 们 的 作者 团队 。 赤 弗 里 和 詹姆斯 二 人 在 统计 与 商务 分 析 领 域 都 是 有 造 
谐 的 教师 、 研 究 员 和 从业 人 员 。 着 姆 斯 是 美国 统计 协会 会 员 。 你 可 以 从 随后 的 作者 简介 部 分 了 解 到 他 们 更 多 的 成 
就 。 我 们 相信 杰 弗 里 和 得 姆 斯 的 夺 入 ， 将 保 特 和 提高 本 书 想 达到 的 效果 。 

未 书 的 目的 是 向 学 生 ， 主 要 是 向 那些 工商 管理 和 经 济 学 研究 领域 的 学 生 概念 性 地 介绍 统计 学 及 其 各 种 应 用 方 
面 的 知识 。 本 书 是 以 应 用 为 导向 ， 并 考虑 到 非 数 学 专业 人 员 的 需要 而 编写 的 ， 所 需要 的 必 备 数学 基础 为 代数 
知识 。 

数据 分 析 与 统计 方法 的 应 用 是 本 书 的 结构 及 讲述 内 容 中 一 个 不 可 或 缺 的 部 分 。 每 种 方法 的 讨论 与 发 展 都 通过 
应 用 呈现 出 来 ， 并 运用 统计 结果 进行 问题 的 决策 和 解答 。 

尽管 本 书 以 应 用 为 导向 ， 但 我 们 还 是 谨慎 地 给 出 了 合理 的 方法 推导 过 程 ， 并 且 运 用 了 所 涉及 的 论题 通常 会 使 
用 的 符号 。 困 此 ， 同 学 们 将 会 发 现 ， 本 书 为 学 习 高 级 统计 学 打下 了 坚实 的 基础 。 附 录 中 包括 指导 进一步 学 习 的 参 
考 书目 。 

本 书 向 学 生 介绍 Minitab 16 与 Microsoft @ Excel 2010 软件 包 ， 并 强调 在 统计 分 析 应 用 中 计算 机 软件 包 的 作用 。 
之 所 以 介绍 Minitab， 是 因为 在 教学 和 统计 实践 中 它 都 是 最 主要 的 统计 软件 包 之 一 ; Excel 虽然 不 是 统计 软件 包 ， 
但 它 的 广泛 实用 性 和 应 用 性 ， 对 于 学 生 了 解 这 个 软件 包 的 统计 性 能 很 重要 。Minitab 和 Excel 的 步骤 在 各 章 附录 中 
会 给 出 ， 使 得 在 更 多 强调 计算 机 运用 的 课堂 中 ， 教 师 可 以 灵活 使 用 。StatTools 是 由 Palisades 公司 开发 的 一 个 商用 
Excel 插件 ， 对 Excel 用 户 扩展 了 统计 选项 的 范围 。 在 本 书 第 1 章 的 附录 中 ， 我 们 演示 了 如 何 下 载 和 安装 StatTools。 
大 部 分 章节 都 有 一 个 演示 使 用 StatTools 完成 统计 程序 所 需 步 又 的 附录 。 我 们 将 StatTools 变 成 可 选 的 ， 因 此 对 那些 
讲授 仅仅 使 用 Excel 中 可 利用 的 标准 统计 工具 的 教师 来 说 ， 可 以 这 样 做 。 


第 12 版 的 变化 


我 们 对 《商务 与 经 济 统 计 》 以 前 版 本 得 到 的 认可 与 积极 的 反应 表示 感谢 。 因 此 ， 在 这 次 新 版 修订 时 ， 我 们 保 
留 了 以 前 版 本 的 叙述 风格 与 可 读 性 。 全 书 有 许多 变化 引 在 提高 其 教学 效果 。 新 版 中 的 显著 变化 汇总 如 下 。 


内 容 修 订 


。 描述 统计 学 一 一 第 2 章 和 第 3 章 我 们 加 入 了 数据 可 视 化 、 最 佳 实践 等 许多 新 资料 ， 特 别 修订 了 这 两 章 。 
第 2 章 增 加 了 包括 复合 条 形 图 和 结构 条 形 图 的 新 资料 以 及 数据 可 视 化 和 创建 有 效 图 形 显示 的 最 佳 实践 这 
一 新 的 小 节 。 第 3 章 在 位 置 的 度量 一 节 中 增加 了 对 玫 何 平均 数 的 义 述 。 几何 平均 数 在 金融 投资 的 增长 率 、 
年 百分比 等 计算 中 有 许多 应 用 5 第 3 章 还 新 增 了 一 节 ; 数据 仪表 板 和 如 何 加 入 汇总 统计 以 增强 其 效果 。 

。 离散 型 概率 分 布 一 一 第 5 章 为 了 更 好 地 解释 概率 分 布 的 作用 以 及 第 4 章 中 提 到 的 概率 分 配 的 资料 如 何 
用 二 建立 离散 型 概率 分 布 ， 我 们 对 这 一 章 的 基 独 料 料 进行 了 和 修订。 我 们 指出 采用 分 配 概 替 的 相对 频数 法 
建立 经 验 离 散 概 率 分 布 。 应 许多 用 户 的 要 求 ， 我 们 增加 了 包括 二 元 离散 分 布 和 在 金融 上 的 应 用 这 一 新 的 
小 节 《5.4 节 )。 我 们 展示 了 如 何 使 用 这 些 分 布 ， 构 建 金融 资产 组 合 和 分 析 。 

。 多 个 比率 的 比较 、 独 立 性 检验 及 拟 合 优 度 检 验 一 一 第 12 章 这 一 章 做 了 很 大 修改 。 我 们 增加 了 三 个 或 多 


个 总 体 比 率 相 等 性 的 检验 的 新 的 一 节 ， 这 一 节 包 括 一 个 进行 总 体 比 率 所 有 配对 之 间 多 重 比较 检验 的 程序 。 
为 了 阐明 检验 涉及 的 两 个 分 类 变量 的 独立 性 ， 独 立 性 检验 这 一 节 被 重新 改写 ， 修 订 了 包括 Minitab ，Excel 
和 StatTools 的 分 步 指令 s 
。 新 案例 ”本 版 我 们 增加 了 8 个 新 案例 ， 使 得 书 中 的 案例 总 数 达 到 31 个 。 在 第 2 章 和 第 3 章 增加 了 3 个 新 
的 描述 统计 案例 。 ,在 有 关 回 归 的 第 14 章 、 第 15 章 和 第 16 章 中 增加 了 5 个 新 案例 。 这些 案 例 为 学 生 提 供 
了 分 析 较 大 数据 集 并 以 分 析 结 果 为 基础 准备 管理 报告 的 机 会 。 
“实践 中 的 统计 ”的 新 应 用 ”每 一 章 都 以 一 篇 “实践 中 的 统计 ”的 文章 开始 ， 这 些 文章 描述 了 该 章 将 要 介 
绍 的 统计 方法 的 应 用 。 本 版 中 新 的 “实践 中 的 统计 ”是 第 2 章 描述 的 数据 仪表 板 和 辛辛那提 动物 园 数据 
可 视 化 的 合用。 我 们 在 第 4 章 还 增加 了 一 个 新 的 “实践 中 的 统计 ”， 它 描述 NASA 团队 如 何 利用 概率 帮助 
营救 由 于 矿 并 塌方 而 受 困 的 33 名 智利 矿工 。 
以 实际 数据 为 基础 的 新 例题 与 练习 ”我们 继续 努力 用 最 近 的 实际 数据 和 统计 信息 资料 来 更 新 本 书 的 例题 
和 练习 。 本 版 增加 了 近 180 道 新 例题 和 练习 ， 这 些 例 题 和 练习 是 以 实际 数据 和 原始 资料 为 基础 的 。 利 用 
《华尔街 日报 》《 今 自 美 国 )《 巴 伦 周 刊 》 以 及 一 系列 其 他 资料 来 源 ， 我 们 进行 了 实际 研究 ， 以 说 明 并 创 
建 练习 来 演示 商务 与 经 济 统计 的 多 种 应 用 。 我 们 相信 ， 实 际 数 据 的 使 用 可 使 更 多 的 学 生 对 统计 资料 产生 
兴趣 ， 并 使 学 生 既 学 习 统 计 方 法 ， 又 学 习 其 应 用 。 本 书 第 12 版 包含 近 350 道 以 实际 数据 为 时 础 的 例题 和 
练习 。 


特色 与 教学 
作者 安德森 、 斯 威 尼 、 威 廉 斯 、 卡 姆 和 科 克 伦 继续 保留 了 以 前 且 本 中 的 许多 特色 。 


方法 练习 与 应 用 练习 


每 节 后 的 练习 分 成 两 部 分 ， 即 “方法 ”和 “应 用 ”。 方 法 练习 要 求学 生 利用 公式 进行 让 要 的 计算 : 应 用 练习 
要 求学 生 利 用 书 中 的 实际 资料 。 这 样 ， 学 生 首先 把 注意 办 集中 在 “基本 问题 ”的 计算 上 ， 然 后 再 转向 精巧 的 统计 
应 用 与 解释 上 。 


自 测 题 

某 些 练习 作为 自 测 题 |( 本 书 用 “ 女 ” 标 注 ) 出 现 ， 它 科 的 完整 解答 在 附录 C 中 给 出 ， 学 生 们 可 试 着 做 自 测 
题 并 核对 答案 ， 以 便 评 估 你 对 书 中 各 章 讲 述 的 概念 的 理解 程度 。 

页 下 注解 与 注释 


关键 点 以 及 对 学 生 提 供 额 外 知识 的 页 下 注解 是 本 书 的 一 个 重要 特色 。 设 计 这 些 出 现在 页 下 的 注解 ， 是 为 了 强 
调和 提高 对 本 书 介绍 的 术语 和 概念 的 理解 。 

在 许多 节 的 末尾 提供 了 “注释 ”， 以 帮助 学 生 更 深入 地 了 解 统计 方法 及 其 应 用 。“ 注 释 ” 中 包括 一 些 注意 事 
项 ， 如 方法 的 局 限 性 、 对 应 用 的 建议 、 对 其 他 方法 的 简要 描述 及 其 他 事项 。 


本 书 附带 的 数据 文件 


本 书 所 附 光 不 有 大 量 可 供 我 们 使 用 的 数据 文件 。 这些 数据 集 既 可 以 在 Minitab 中 ， 也 可 以 在 Excel 格式 中 使 
用 。 所 有 案例 的 数据 集 和 较 大 练习 的 数据 集 都 放 在 光盘 上 。 


加 本 书 配套 光盘 中 除了 提 到 的 数据 文件 ， 还 有 各 章 的 单数 习题 、 各 章 附 录 。 
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戴 维 R， 安德森 ( David R. Anderson ) 


戴 维 R. 安德森 是 辛辛那提 大 学 工商 管理 学 院 数 量 分 析 系 教授 。 他 出 生 在 北 达 科 他 州 大 福克斯 市 ， 在 普度 大 
学 获得 学 十、 硕 主 和 博 十 学位。 安德森 教 援 担任 数量 分 析 与 运作 管理 系 主 任 ， 并 担任 工商 管理 学 院 的 副 院 长 。 此 
外 ， 他 还 是 学 院 首届 教学 大 纲 的 协调 人 。 

在 辛辛那提 大 学 ， 安 德 森 教授 不 但 为 商科 专业 的 学 生 讲 授 基础 统计 学 ， 而 生还 讲授 研究 生 水 平 的 回归 分 析 、 
多 元 分 析 和 管理 科学 课程 。 他 也 在 华盛顿 特区 的 美国 劳工 部 讲授 统计 学 课程 。 他 因 在 教学 上 和 对 学 生 组 织 服 务 方 
面 的 突出 成 就 而 荣获 提名 与 奖励 。 

安德森 教授 已 在 统计 学 管理 科学 、 线 性 规划 以 及 生产 与 运作 管理 领域 与 他 人 合作 出 版 了 410 部 著作 。 他 是 
一 位 活跃 在 抽样 和 统计 方法 领域 的 咨询 顾问。 


丹尼斯 J 斯 威 尼 ( Dennis J. Sweeney) 


丹尼斯 ] 斯 威 尼 是 辛辛那提 大 学 数量 分 析 系 教授 和 生产 力 提 高 中 心 主任 。 他 出 生 在 衣 阿 华 州 得 类 因 市 ， 在 
德 雷 克 大 学 获得 工商 管理 学 士 学 位 ， 在 印第安 纳 大 学 获得 工商 管理 硕士 和 工商 管理 博士 学 位 ， 并 成 为 NDEA 会 
员 。 斯 威 尼 教 授 曾 在 宝洁 公司 管理 科学 小 组 工作 ， 并 在 杜 克 大 学 作 了 一 年 的 客座 教授 。 斯 威 尼 教 授 担 任 辛 辛 那 提 
大 学 数量 分 析 系 主任 和 工商 管理 学 院 的 副 院 长 。 

斯 威 尼 教 授 已 在 管理 科学 与 统计 学 领域 发 表 和 出 版 了 30 多 篇 论文 和 专著 。 国 家 科学 基金 、IBM 公司 、 宝 洁 公 
司 、 美 国联 合 百货 (Federated Department Stores)、 美 国 克 罗 格 公司 (Kroger) 和 辛辛那提 和 天然气 和 电气 公司 等 都 
曾 对 他 的 研究 给 予 资 助 ， 这 些 研究 的 成 果 在 《管理 科学 》《 运 筹 学 》、Mathematical Programming、《 决 策 科学 》 等 
杂志 上 发 表 。 

斯 威 尼 教 授 在 统计 学 、 管 理科 学 、 线 性 规划 、 生 产 与 运作 管理 等 领域 已 与 他 人 合作 出 版 了 10 部 专著 。 


托马斯 A. 威廉 斯 ( Thomas A.、 Williams) 


托马斯 A， 威廉 斯 是 罗切斯特 理工 学 院 商 学 院 的 管理 科学 教授 。 他 出 生 在 纽约 州 埃 尔 迈 拉 市 ， 在 克拉 克 森 大 
学 获得 学 士 学 位 ， 在 伦 斯 勒 工学 院 完 成 研究 生 学 业 并 获得 硕士 和 博士 学 位 。 

在 进入 罗切斯特 理工 学 院 商 学 院 之 前 ， 威 廉 斯 教授 在 辛辛那提 大 学 工商 管理 学 院 从 事 了 7 年 教学 工作 ， 他 在 
那里 制定 了 信息 系统 专业 的 本 科教 学 计划 ， 并 且 担 任 协 调 人 。 在 罗切斯特 理工 学 院 ， 他 是 决策 科学 系 的 第 一 任 主 
席 。 他 不 但 讲授 本 科 生 的 管理 科学 与 统计 学 课程 ， 而 且 还 讲授 研究 生 的 回归 与 决策 分 析 课 程 。 

威廉 斯 教授 在 管理 科学 、 统 计 学 、 生 产 与 运作 管理 和 数学 领域 与 他 人 合作 出 版 了 11 部 专著 。 他 为 《财富 》 
500 强 中 多 家 公司 提供 咨询 服务 ， 从 数据 分 析 的 使 用 到 大 型 回归 模型 的 开发 ， 都 在 他 的 工作 范围 之 内 。 


杰 弗 里 D. 卡 姆 (Jeffrey D. Camm ) 
杰 弗 里 D. 卡 姆 是 辛辛那提 大 学 数量 分 析 教 授 ， 运 营 、 商 业 分 析 与 信息 系统 系 主任 ， 卡 尔 旦 . 林 德 纳 商学 院 商 


业 研究 院 研究 员 。 他 出 生 在 俄亥俄 州 辛辛那提 市 ， 在 泽 维尔 大 学 获得 学 士 学 位 ， 在 克 羔 姆 森 大 学 获得 博士 学 位 。 
从 1984 年 起 他 在 地 辛 那 提 大 学 工作 ， 是 斯 坦 福 大 学 的 访问 学 者 和 达 特 芳 斯 学 院 商 学 院 工商 管理 客座 教授 。 

卡 姆 博士 在 运营 管理 中 优化 问题 应 用 领域 发 表 了 30 多 篇 论文 。 他 的 研究 成 果 发 表 在 《科学 》《 管 理科 学 》 
《运筹 学 》、jnterfaces 和 其 他 专业 杂志 上 。 在 辛辛那提 大 学 工作 期 间 ， 他 被 任命 为 教学 优秀 的 Domoff 成 员 ， 并 在 
2006 年 因 运 筹 学 实践 教学 获得 了 INFORMS 奖 。 他 是 宣扬 实践 的 坚定 信徒 。 作 为 运筹 学 顾问 ， 他 服务 于 多 家 公司 
和 政府 机 构 。2005 ~2010 年 ， 他 担任 Interfaces 总 编辑 ， 目 前 是 INFORMS 教育 学 报 编 委 。 


往 姆 斯 J， 科 克 伦 (James J. Cochran ) 


错 姆 斯 J 科 克 伦 是 路 鸭 斯 安 那 理 工大 学 拉 斯 顿 银 行 授 衡 的 数量 分 析 教 授 。 他 出 生 在 猴 玄 俄 州 的 代 顿 市 ， 在 
莱特 州立 大 学 获得 学 士 、 硕 士 和 工商 管理 硕士 学 位 ， 在 辛辛那提 大 学 获得 博士 学 位 。 从 2000 年 起 在 路 易 斯 安 那 理 
工大 学 工作 ， 是 斯 坦 福 大 学 、 塔 尔 卡 大 学 和 南非 大 学 的 访问 学 者 。 

科 克 伦 教 授 在 运筹 学 和 统计 方法 的 发 展 和 应 用 方面 发 表 了 超过 24 篇 论文 。 他 的 研究 发 表 在 《管理 科学 》《 美 
国 统计 》《 统 计 通 讯 一 一 理论 与 方法 》《 运 营 研 究 (欧洲 版 )》，Journal of Combinatorial Optimization 和 其 他 专业 杂 
志 上 。 在 2008 年 他 因 运 筹 学 实践 教学 获得 了 INFORMS 奖 ， 在 2010 年 获 Mu Sigma Rho 统计 教育 奖 。 科 克 伦 教授 
2005 年 入 选 国际 统计 学 会 ，2010 年 成 为 美国 统计 协会 会 员 。 他 以 提高 对 实际 问题 应 用 质量 的 方法 ， 强 烈 主 张 运筹 
学 和 统计 学 教育 的 有 效 性 。 科 克 伦 教授 在 乌拉 诗 的 蒙 得 维 的 亚 、 南 非 的 开 普 敦 、 哥 伦比 亚 的 卡 塔 赫 纳 、 印 度 的 高 
浦 尔 、 阿 根 廷 的 布 宜 诺 斯 英利 斯 、 肯 尼 亚 的 内 罗 毕 组 织 和 主持 教学 效果 研讨 班 。 作 为 运筹 学 顾问 ， 他 服务 于 多 家 
公司 和 非 营利 组 织 。 目 前 他 是 INFORMS 教育 学 报 总 编辑 及 Interfaces， The Journal of the Chilean of Operations Re- 
search 及 ORION 的 编 委 。 
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商务 与 经 济 
商务 与 经 六 训 德 称 
BT 19 Tr ) 安德森) (2012 年 :) 
经 济 决 箔 模型 1978-7-111-26846-8 ”| 经 济 决策 的 概率 模型 ( 迈 尔 厅 ) 《2009 年 ) 
计 吝 经 济 学 学 习 指导 |978-7-111-31370-0 的 
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2 商务 与 经 济 统计 


实践 中 的 统计 
彭 博 商 业 周 刊 : 
纽约 州 ， 纽 约 市 


《 彭 博 商业 周刊 》 (Bloomberg Businessweek) 是 世界 
上 拥有 最 广泛 读者 的 商业 类 和 杂志， 其 全 球 发 行 量 超 过 
100 万 份 。 该 杂志 在 全 球 的 145 个 记者 站 中 有 1700 多 
名 上 忠于 职守 的 记者 和 编辑 ， 主 要 登载 各 类 有 关 全 球 经 
济 和 贸易 活 动 的 饶 有 兴趣 的 文章 。 除 了 刊登 当前 热门 
话题 的 特色 文章 外 ， 还 有 一 些 关 于 国际 贸易 、 经 济 分 
析 、 信 息 处 理 和 科技 进展 等 常设 栏目 。 特 色 文 章 和 常 
设 栏目 传递 的 信息 能 帮助 读者 及 时 透视 时 事 风 云 变 幻 ， 
以 便 评 估 其 对 商务 和 经 济 状况 产生 的 影响 。 

几乎 每 一 期 《 彭 博 商业 周刊 》 (更 名 前 叫 《 商 业 
周刊 少 ) 都 发 表 一 篇 有 关 当 前 热门 话题 的 深度 报告 ， 通 
常 这 些 深度 报告 包含 统计 论据 和 概述 ， 以 帮助 读者 了 
解 商务 和 经 济 信 息 。 例 如 ，2011 年 3 月 3 日 那 一 期 的 
封面 故事 ,讨论 了 工商 业 逐 渐 把 其 主要 业务 处 理 向 云 
计算 转移 ; 2011 年 5 月 30 日 那 一 期 ， 有 一 篇 濒临 出 溃 
的 美国 邮政 服务 业 的 报告 ; 2011 年 8 月 1 日 那 一 期 ， 
发 表 了 一 篇 为 什么 债务 危机 比 想象 的 更 为 严重 的 文章 。 
另外 ， 每 一 期 《 彭 博 商业 周刊 》 都 发 布 关 于 经 济 状况 
的 统计 资料 ， 包 括 产 总 指数 、 股 票 价 格 、 共 同 基金 和 


利息 率 等 。 

《 彭 博 商业 周刊 》 还 利用 统计 报告 和 统计 信息 来 帮 
助 管 理 其 自身 的 经 营 。 例如， 一 份 关于 订阅 者 的 年 度 
综述 报告 可 以 帮助 公司 了 解 订阅 者 的 人 口 特征 、 阅 读 
习惯 、 购 物 偏好 和 生活 方式 等 《部 博 商 业 周 刊 》 的 管 
理 人 员 利 用 从 调查 中 得 出 的 统计 结论 更 好 地 为 订阅 者 
和 广告 客户 提供 服务 。 最 近 对 《 彭 博 商业 周刊 》 北 美 
订阅 者 的 调查 数据 表明 ，90 驳 的 《 豆 博 商业 周刊 》 订 
阅 者 在 家 使 用 计算 机 ， 并 且 64% 的 订阅 者 因 工 作 需 要 
而 购买 了 计算 机 。 这 一 统计 结果 提醒 《 豆 博 商业 周刊 》 
的 管理 者 : 订阅 者 会 对 个 人 计算 机 发 展 趋势 方面 的 文 
章 感 兴趣 ， 而 且 ， 调 查 的 结论 也 会 引起 潜在 的 广告 客 
户 的 兴趣 。 订 阅 者 中 在 家 使 用 计算 机 和 因 工 作 使 用 计 
算 机 有 如 此 之 高 的 百分比 ， 将 会 刺激 个 人 计算 机 厂商 
考虑 在 《 彭 博 商业 周刊 》 上 做 广告 。 

本 章 我 们 讨论 可 用 于 统计 分 析 的 数据 类 型 ， 并 说 
明 如 何 取得 这 些 数 据 。 我 们 将 介绍 描述 统计 和 统计 推 
断 ， 它 们 是 将 数据 转 为 有 意义 的 且 易 于 解释 的 统计 信 
息 的 方法 。 





我 们 经 常 在 报纸 和 杂志 上 的 文章 中 看 到 下 列 各 种 报道 : 


。 美国 劳工 部 报道 失业 率 降 至 过 去 3 年 的 最 低 点 8. 2% ( 《华盛顿 邮 报 》，2012 年 4 月 6 日 )。 

。 每 年 每 一 位 美国 人 平均 消费 23.2 辱 脱 的 冰淇淋 、 和 牛奶 冻 、 果 汗 牛 奶 冻 、 冰 冻 甜 食 和 其 他 大 量 生 产 的 冷冻 
乳 制 毅 (makeicecream. com website，2012 年 4 月 2 日 )。 

。 度假 屋 销 售 价格 的 中 位 数 为 121 300 美元 (@CNNMoney，2012 年 3 月 29 日 )。 


website，2012 年 4 月 5 日 )。 


年 3 月 29 目 )。 


位 于 田纳西 州 Pigeon Forge 的 多 来 坞 主题 公园 的 野 座 宽 绝 过 山 车 最 大 时 速 为 每 小 时 98 千 米 (USA Today 
钉 板 方式 的 社交 图 片 分 享 网 站 Pinterest 的 注册 用 户 数量 从 1 月 中 旬 到 2 月 中 旬 增 加 了 85% (CNBC，2012 
Pew 研究 中 心 报道 美国 新 娘 初 婚 年 龄 的 中 位 数 创 纪录 高 达 26.5 岁 (Significance，2012 年 2 月 )。 


2011 年 第 4 季度 加 拿 大 人 上 网 时 间 平 均 达 到 45 小 时 (CBC News，2012 年 3 月 2 日 )。 
美联储 报道 每 个 人 的 平均 信用 卡 债务 为 5 204 美元 (PRWeb website，2012 年 4 月 5 日 )。 


前 面 报 道中 的 数据 事实 (8, 2 多 ，23.2，121 300 关 元 ，61 ，8 久 ，26.5， 辣 ,9 204 美元 ) 称 为 统计 资料 
(statistics) 。 在 这 种 用 法 中 ， 术 语 统 计 资 料 是 指数 据 值 事实 ， 如 平均 数 、 中 位 数 、 百 分 数 和 最 大 值 等 ， 它 们 可 以 
帮助 我 们 了 解 各 种 商务 和 经 济 状况 。 然 而 ， 你 将 看 到 ， 统 计 学 的 研究 领域 或 对 象 的 内 涵 更 加 丰富 。 广 义 上 讲 ， 统 


怠 ” 作 者 感谢 为 “ 实 臣 中 的 统计 ”提供 了 案例 的 调研 管理 人 员 Charlene Trentham。 
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计 学 是 搜集 、 分 析 、 表 述 和 解释 数据 的 科学 与 艺术 。 特 别 是 在 商务 和 经 济 活动 中 ， 搜 集 、 分 析 、 表 述 和 解释 数据 
旨 在 帮助 管理 者 和 决策 者 更 好 地 理解 商务 和 经 济 环境 的 变化 ， 并 作出 科学 、 正 确 的 决策 。 在 本 书 中 ， 我 们 强调 的 
是 统计 学 在 商务 和 经 济 决策 方面 的 用 途 。 

本 章 以 统计 学 在 商务 和 经 济 中 的 一 些 应 用 实例 为 开端 ， 在 第 1. 2 节 我 们 定义 了 数据 这 一 术语 的 含义 ， 并 给 出 
了 数据 集 的 概念 。 在 这 一 节 中 ， 还 介绍 了 变量 和 观测 值 等 一 些 重要 的 术语 ， 讨 论 了 数量 型 数据 和 分 类 型 数据 之 间 
的 区 别 ， 并 且说 明了 截面 数据 和 时 间 序 列 数据 的 应 用 。 在 第 1.3 节 中 ,我们 探讨 了 如 何 从 现 有 的 资料 来 源 中 获得 
数据 ， 或 通过 调查 和 设计 的 实验 研究 获得 新 数据 。 对 如 今 在 数据 获取 中 起 着 重要 作用 的 互联 网 ， 也 给 予 了 高 度 的 
重视 。 在 第 1.4 节 和 第 1.5 节 中 ,论述 了 数据 在 进行 描述 统计 和 统计 推断 中 的 用 途 。 在 本 章 的 最 后 3 节 还 给 出 了 
计算 机 在 统计 分 析 中 的 角色 ， 简 单 介绍 了 数据 挖 气 ， 并 且 讨 论 了 统计 实践 的 道德 准则 。 本 章 末 尾 的 附录 中 对 Excel 
的 插件 StatTools 做 了 介绍 ， 它 扩展 了 Microsoft Excel 用 户 的 统计 选项 功能 。 


1.1 统计 学 在 商务 和 经 济 中 的 应 用 


如 今 在 贸易 和 经 济 全 球 化 的 背景 下 ， 人 们 可 以 获取 大 量 的 统计 信息 。 最 成 功 的 管理 者 和 决策 者 是 那些 能 够 理 
解 信息 并 有 效 利 用 信息 的 人 。 本 节 我 们 举例 说 明 统计 学 在 商务 和 经 济 中 的 应 用 。 


1 下 过 证 


会 计 师 事务 所 在 对 其 客户 进行 审计 时 需要 使 用 统计 抽样 程序 。 例 如 ， 假 设 一 个 事务 所 想 确定 列 示 在 客户 资产 
负债 表 上 的 应 收 账 款 金 额 是 否 真实 地 反映 了 应 收 账 款 的 实际 金额 。 通 常 应 收 账 款 的 数量 是 如 此 之 大 ， 以 致 查看 和 
验证 每 一 账户 将 花费 大 量 的 时 间 和 费用 。 在 这 种 情况 下 ， 一 般 的 做 法 是 : 审计 人 员 从 账户 中 选择 一 个 子 集 作 为 样 
本 ， 在 查看 样本 账户 的 准确 性 后 ， 审 计 师 得 出 有 关 列 示 在 客户 资产 负债 表 上 的 应 收 账 款 金 额 是 不 是 可 以 接受 的 
结论 。 


1. 1.2 财务 


财务 顾问 们 利用 各 种 各 样 的 统计 信息 指导 投资 。 在 股票 市 场 中 ， 财 务 顾 问 们 综合 了 包括 市 盈 率 和 股息 等 方面 
的 财务 数据 ， 通 过 对 比 单 只 股票 和 股票 市 场 平均 状况 的 信息 ， 就 可 以 得 出 某 一 只 股票 是 否 具有 投资 价格 的 结论 。 
例如 , 《华尔街 日 报 》(2012 年 3 月 19 日 ) 报道 说 ， 标 准 普尔 500 公司 的 平均 股息 收益 率 是 2.2% ， 微 软 的 股息 
收益 是 2.42% 。 这 种 情况 下 ， 关 于 股息 收益 率 的 统计 信息 表明 ， 微 软 的 股息 收益 率 比 标准 普尔 500 公司 的 平均 收 
益 率 高 。 这 一 信息 和 其 他 有 关 徽 软 的 信息 将 帮助 财务 顾问 作出 是 买 、 是 卖 还 是 持 股 的 建议 。 


1.1.3 市 场 营销 


零售 结账 柜台 的 电子 扫描 仪 正 用 于 搜集 各 种 市 场 调研 用 的 数据 。 例 如 ， 数 据 供应 商 ACNielsen 公司 和 Informa- 
tion Resources 公司 ， 从 商店 购买 POS 扫描 数据 ， 经 过 加 工 处 理 ， 作 出 统计 汇总 后 再 出 售 给 制造 商 。 制 造 商 为 取得 
这 些 扫描 数据 ， 每 一 类 产品 要 花费 数 十 万 美元 。 制 造 商 也 购买 特价 销售 和 利用 店内 陈列 品 等 促销 活动 的 数据 及 统 
计 研 究 报 告 。 产 品 品牌 经 理 可 以 查看 扫描 资料 和 促销 活动 统计 资料 ， 从 而 能 更 好 地 理解 促销 活动 和 销售 额 之 间 的 
关系 。 这 样 的 分 析 对 制定 各 种 产品 未 来 的 市 场 营销 战略 大 有 神 益 。 


1. 1. 4 生产 


由 于 当今 进入 了 重视 质量 的 时 代 ， 因 此 质量 管理 是 统计 学 在 生产 中 的 一 项 重要 应 用 。 各 种 统计 质量 管理 图 用 
于 监测 生产 过 程 的 产 出 。 特 别 地 ， 用 * 控制 图 可 以 监测 平均 产 出 。 例如 ， 假 定 有 一 台 340 克 的 软饮料 镀 装 机 ， 定 
期 地 从 产品 中 选择 一 些 镶 装 饮料 作为 样本 ， 计 算出 样本 驴 装 量 的 平均 值 。 这 一 平均 值 或 * 的 值 标 在 一 张 x 控制 图 
上 。 当 该 数值 位 于 控制 上 限 以 上 时 ， 则 表明 产品 铅 装 量 过 高 ; 当 该 数值 位 于 控制 下 限 以 下 时 ， 则 表明 产品 铅 装 量 
不 足 ; 当 * 的 值 位 于 控制 图 的 控制 上 限 和 控制 下 限 之 间 时 ， 这 一 过 程 称 为 处 于 “ 受 控 ” 状 态 ， 并 且 只 要 x 的 值 落 
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在 控制 图 的 控制 上 限 和 控制 下 限 之 间 ， 就 允许 连续 生产 。 更 贴切 的 解释 是 ,+ 控制 图 能 帮助 确定 何 时 必须 调整 和 
修正 生产 过 程 。 


本 经 济 


人 们 经 常 要 求 经 济 学 家 对 未 来 的 经 济 或 某 一 方面 的 发 展 作 出 预测 。 他 们 在 进行 预测 时 需要 用 到 各 种 统计 信 
息 。 例如， 在 预测 通货 膨胀 率 时 ， 经 济 学 家 利用 诸如 生产 者 价格 指数 、 失 业 率 和 制造 业 开 工 率 等 指标 的 统计 信 
息 。 这 些 统计 指标 往往 要 输入 到 预测 通货 膨胀 率 的 计算 机 预测 模型 中 。 

本 节 介 绍 的 统计 学 的 这 些 应 用 是 本 书 的 组 成 部 分 。 这 些 例子 可 使 我 们 对 统计 学 的 广泛 应 用 有 一 个 大 致 的 了 
解 。 为 了 补充 这 些 例 子 ， 我 们 请 求 商务 和 经 济 领域 的 专家 提供 每 章 开 篇 的 “实践 中 的 统计 ”， 以 便 引出 每 章 所 要 
讲解 的 内 容 。“ 实 践 中 的 统计 ”充分 显示 统计 学 在 各 种 各 样 的 商务 和 经 济 问题 中 的 重要 性 。 


1.1.6 信息 系统 


信息 系统 管理 员 负责 维护 某 个 组 织 的 计算 机 网 络 日 复 一 旦 地 运行 。 大 量 的 统计 信息 帮助 管理 员 评价 计算 机 网 
络 [包括 局 域 网 (LANs) 、 广 域 网 《WANs) 、 网 络 段 、 内 部 网 和 其 他 数据 通信 信息 ] 的 表现 。 统 计 诸如 系统 中 的 
平均 用 户 数 、 系 统 中 组 件 下 载 次 数 的 比例 和 日 常 宽带 使 用 的 比例 都 是 统计 信息 的 例子 。 这 些 统计 信息 可 以 帮助 系 
统管 理 员 更 好 地 了 解 和 管理 计算 机 网 络 。 


1.2 数据 


数据 (data) 是 为 了 描述 和 解释 所 搜集 、 分 析 、 汇 总 的 事实 和 数字 。 将 用 于 特定 研究 而 搜集 的 所 有 数据 称 为 
研究 的 数据 集 (data set) 。 表 1-1 是 一 个 包含 参加 世界 贸易 组 织 的 60 个 国家 信息 的 数据 集 。 世 界 贸易 组 织 支持 国 
际 贸易 自由 化 ， 并 提供 了 解决 贸易 争端 的 场所 


1.2.1 个体、 变量 和 观测 值 


个 体 (element) 是 指 搜集 数据 的 实体 。 在 表 1-1 的 数据 集中 ， 每 一 个 国家 是 一 个 个 体 ， 国 家 或 个 体 的 名 称 列 
在 表 1-1 中 的 第 1 列 。 有 60 个 国家 ， 数 据 集中 就 有 60 个 个 体 。 
变量 (variable) 是 个 体 中 所 感 兴 趣 的 那些 特征 。 表 1-1 的 数据 集中 有 下 列 5 个 变量 : 
。 WTO 身份 : 在 世界 贸易 组 织 中 国家 的 成 员 身 份 ， 它 可 以 是 成 员 或 观察 员 。 
。 人 均 GDP (美元 ) : 国家 的 总 产 出 除 以 该 国 的 总 人 口 数 ， 它 通常 用 于 比较 国家 的 经 济 生产 率 。 
。 贸易 逆差 (1 000 美元 ) : 国家 的 进口 总 额 与 出 口 总 额 之 差 。 
。 惠 誉 评级 由 惠 誉 国际 组 织 评价 的 国家 主权 信用 评级 ”; 信用 评级 从 最 高 的 AAA 到 最 低 的 Ff， 并 且 可 以 
用 + 或 -来 微调 。 
。 惠 准 评级 展望 : 未 来 2 年 内 信用 评级 可 能 变动 的 方向 性 指标 ， 展 望 可 以 是 正面 、 稳 定 或 负面 。 
表 1-1 世界 贸易 组 织 60 个 国家 的 数据 集 


国家 WTO 身份 人 均 GDP (美元 ) 贸易 逆差 【1 000 美元 ) 惠 誉 评级 惠 誉 评级 展望 
亚美尼亚 成 员 5 400 2673 359 BB - 稳定 
澳大利亚 成 员 40 800 -33 304 157 AAA 稳定 
奥地利 成 员 41 700 12 796 558 AAA 稳定 
阿 塞 拜 性 观察 员 5 400 -16747 320 BBB ~ 正面 
巴林 成 员 27 300 3 102 665 BBB 稳定 
比利时 成 员 37 600 -14930833 AK+ 负面 


昌 、 嘉 誉 国际 组 织 是 国际 公认 的 三 大 统计 评价 机 构 之 一 ， 由 美国 证 券 交易 监督 委员 会 设计 。 另 外 两 大 机 构 是 标准 普尔 和 穆 迪 投资 者 服务 
公司 


Ho 


巴西 
保加利亚 
加 拿 大 
佛 得 角 
智利 

中 国 
哥伦比亚 
哥斯达黎加 
克罗地亚 
塞浦路斯 
捷克 共和 国 





人 均 GDP (美元 ) 


贸易 遂 差 (1 000 美元 ) 


-29 796 166 
4049 237 
-1611 380 
874459 
—14558218 
-156 705 311 
-561 199 
5 807 509 

8 108 103 

6 623 337 
—10749 467 
-15 057 343 
1 993 819 

28 486 933 
5 019 363 
802 234 

118 841 542 
4 398 153 
-213 367 685 
-9 421 301 
-504 939 

一 39 093 323 
6 722 291 
33 568 668 
3] 675 424 
—33 220 437 
9 174 198 

2 448 053 

13 715 550 

3 359 641 
-39 420064 
1 288 122 
—7 888 993 
15 667 209 
19 552 976 
21 060 508 
—37 509 141 
13 323 709 
—15] 400000 
939 222 
8275 693 
666 026 
-27110421 
-2 110 626 
2310617 
3321 801 
-10 903 251 
-27 197 873 
2 049 669 
71 612 947 
162 316 831 
2 662 628 
784 438 559 
-1 805 198 
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i 
意 誉 评级 声誉 评级 
BBB 稳定 
BBB — 正面 
AAA 稳定 
B+ 稳定 
不 十 稳定 
及 十 稳定 
BBB — 稳定 
BB+ 稳定 
BBB — 负面 
BBB 仙 面 
A 正面 
AAA 稳定 
B= 稳定 
BB 负面 
BB 稳定 
A 稳定 
AAA 稳定 
B+ 正面 
AAA 稳定 
BBB -- 御 面 
BB + 稳定 
BBB + 负面 
A 稳定 
入 + 负面 
AA 负面 
BBB 正面 
B + 稳定 
BBB ~- 正面 
B 稳定 
BBB 正面 
A 稳定 
BBB 稳定 
BBB 稳定 
BB + 稳定 
二 稳定 
BBB — 质 面 
和 A+ 稳定 
BBB — 稳定 
BBB 正面 
B 稳定 
BB — 稳定 
B 稳定 
AAA 稳定 
入 十 稳定 
AA- 人 负面 
BBB + 稳定 
AAA 稳定 
AAA 稳定 
BBB 稳定 
BB + 正面 
AAA 负面 
BB 正面 
AAA 稳定 
B+ 稳定 





6 商务 与 经 济 统计 


在 一 项 研究 中 ， 对 每 个 个 体 的 每 一 变量 收集 测量 值 ， 从 而 得 到 了 数据 。 对 某 一 特定 个 体 得 到 的 测量 值 集合 称 
为 一 个 观测 慎 (observation) 。 如 表 1-I 所 示 ， 我 们 看 到 第 一 个 观测 值 (亚美尼亚) 的 测量 值 集合 是 成 员 、5 400、 
2673 359、BB - 和 稳定 。 第 二 个 观测 值 (澳大利亚 ) 的 测量 值 集合 是 成 员 、40 800、-=33 304 157 、AAA 和 稳定 。 
60 个 个 体 的 数据 集 有 60 个 观测 值 。 


1. 2. 2 测量 尺度 


搜集 数据 需要 按 下 列 几 种 测量 尺度 之 一 来 度量 : 名 义 久 度 、 顺 序 太 度 、 间 隔 斥 度 和 比率 扩 度 。 测 量 斥 度 决 定 
了 数据 中 蕴涵 的 信息 量 ， 并 表明 最 适合 的 数据 汇总 和 统计 分 析 方 法 。 

当 一 个 变量 的 数据 包含 了 用 来 识别 个 体 属 性 的 标记 或 名 称 时 ,测量 尺度 称 为 名 义 尺 度 (nominal scale)。 例 
如 ， 表 1-1 中 的 数据 ， 我 们 看 到 WTO 喘 份 变量 的 测量 尺度 是 名 义 尺 度 ， 因 为 数据 “成 员 ” 和 “观测 员 ” 是 用 来 
识别 国家 身份 类 型 的 标记 。 在 测量 尺度 是 名 义 尺度 的 情形 中 ， 可 以 使 用 数值 代码 及 非 数 字 的 标记 。 例 如 ， 为 了 便 
于 数据 搜集 ， 并 做 好 将 数据 录入 计算 机 数据 库 的 准备 ， 对 WTO 身份 变量 我 们 可 以 使 用 数值 代码 : 用 1 代表 世界 
贸易 组 织 中 的 成 员 国 ; 用 2 代表 观测 员 国 。 即 使 数据 是 数值 型 的 , 测量 尺度 仍 是 名 义 尺 度 的 。 

如 果 数 据 具 有 名义 数 据 的 性 质 ， 并 且 数 据 的 顺序 或 等 级 的 意义 明确 ， 那 么 这 种 变量 的 测量 尺度 是 顺序 尺度 
(ordinal scale) 。 如 表 1-1 中 所 示 ， 患 誉 评级 的 测量 尺度 是 顺序 尺度 ， 因 为 从 AAA 到 下 的 评级 分 类 可 以 按 从 最 佳 的 
信用 评级 AAA 到 最 差 的 信用 评级 了 排序 。 评 级 字母 提供 了 类 似 和 名 义 数据 的 标记 ， 但 是 数据 还 可 以 根据 信用 评级 
排序 ， 这 使 得 测量 尺度 是 顺序 的 。 顺 序 尺 度 也 可 以 用 数值 代码 ， 例 如 你 在 学 校 中 的 班级 排名 。 

如 果 数 据 具有 顺序 数据 的 所 有 性 质 ， 并 且 可 以 按 某 一 固定 度量 单位 表示 数值 间 的 间隔 ， 则 这 种 变量 的 测量 下 
度 是 间隔 尺度 (interval scale) 。 间 隔 数据 永远 是 数值 型 的 。 学 生 能 力 测 验 (SAT) 的 分 数 是 间隔 尺度 数据 的 一 个 
例子 。 例 如 ，3 个 学 生 的 SAT 分 数 分 别 为 620、550 和 470， 它 们 能 够 按 最 好 到 最 差 进行 排序 。 另 外 ， 分 数 之 差 是 
有 一 定 意义 的 。 比 如 ， 学 生 1 的 分 数 比 学 生 2 的 分 数 多 70 分 ( =620 -550) ， 学 生 2 的 分 数 比 学 生 3 的 分 数 多 80 
分 ( =550 -470) 。 

如 果 数 据 具 有 间隔 数据 的 所 有 性 质 ， 并 且 两 个 数值 之 比 是 有 意义 的 ， 则 这 种 变量 的 测量 尺度 是 比率 尺度 (ra- 
tio scale)。 像 距离 、 高 度 、 重 量 和 时 间 等 变量 都 用 比率 尺度 来 度量 。 比 率 尺度 需要 有 一 个 零 值 ， 变 量 取 零 值 时 表 
示 什 么 也 不 存在 。 例 如 ， 让 我 们 来 考虑 汽车 的 成 本 ， 零 值 意味 着 汽车 没有 成 本 或 是 免费 的 。 为 外 ， 如 果 我 们 比较 
成 本 为 30 000 美元 的 汽车 与 成 本 为 15 000 美元 的 汽车 ， 比 率 值 30 000/15 000 =2， 表 示 第 一 辆 汽车 的 成 本 是 第 二 
辆 汽车 成 本 的 2 信 。 


1. 2. 3 ”分 类 型 数据 和 数量 型 数据 


数据 还 可 以 进一步 划分 为 分 类 型 和 数值 型 。 归 属于 某 一 类 别 的 数据 称 为 分 类 型 数据 (categorical data) ， 分 类 
型 数据 既 可 以 用 名 义 尺 度 度 量 也 可 以 用 顺序 尺度 度量 。 用 于 表示 大 小 或 多 少 的 数值 称 为 数量 型 数据 ( quantitative 
data) 。 数 值 型 数据 既 可 以 用 间隔 尺度 度量 也 可 以 用 比率 尺度 度量 。 

分 类 变量 (categorical variable) 是 用 分 类 型 数据 表示 的 变量 ， 数 量变 量 ( quantitative variable) 是 用 数量 型 数 
据 表示 的 变量 。 统 计 分 析 方法 是 否 适合 一 个 特定 变量 ,取决 于 变量 是 分 类 变量 还 是 数量 变量 S。 如 果 变 量 是 分 类 
变量 ， 则 统计 分 析 方法 极其 有 限 。 我 们 通过 记录 每 一 类 别 中 观测 值 的 数目 ， 或 计算 每 一 类 别 中 观测 值 的 比例 来 汇 
总 分 类 型 数据 。 但 是 ， 即 使 分 类 型 数据 用 数值 代码 表示 ， 对 其 进行 加 、 减 、 乘 和 除 等 数学 运算 也 是 没有 意义 的 。 
第 2. 1 节 将 介绍 汇总 分 类 型 数据 的 方法 。 

另 一 方面 ， 对 数量 变量 进行 数学 运算 ， 可 以 得 到 有 意义 的 结果 。 例 如 ， 对 于 数量 变量 ， 可 以 先 求 和 ， 然 后 除 
以 观测 值 的 个 数 ， 可 以 计算 出 平均 数 。 这 个 平均 数 通常 是 有 意义 的 并 且 易 于 解释 。 一 般 地 ， 当 数据 是 数值 型 时 ， 
有 更 多 的 统计 方法 可 供 选择 。 第 2. 2 节 和 第 3 章 会 介绍 汇总 数量 型 数据 的 方法 。 


日 ”适合 汇总 数据 的 统计 方法 取决 于 数据 是 分 类 型 数据 还 是 数值 型 数据 。 


第 1 章 ”数据 与 统计 资料 7 


1.2.4 截面 数据 和 时 间 序 列 数据 


为 了 便于 统计 分 析 ， 有 必要 对 截面 数据 和 时 间 序 列 数 据 进 行 区 分 。 截 面 数据 (cross- sectional data) 是 在 相同 
或 近似 相同 的 同一 时 点 上 搜集 的 数据 。 表 1-1 中 数据 是 截面 数据 ， 因 为 它们 描述 了 60 个 世界 贸易 组 织 国家 的 5 个 
变量 在 同一 时 点 上 的 情况 。 时 间 序 列 数 据 (time series data) 是 在 几 个 时 期 内 搜集 的 数据 。 例 如 ， 图 1-1 的 时 间 序 
列 是 2007 ~2012 年 美国 常规 普通 汽油 每 加 仑 的 平均 价格 曲线 。 我 们 注意 到 ， 汽 油价 格 在 2008 年 夏季 达到 顶点 后 ， 
2008 年 下 半年 汽油 价格 急剧 下 降 = 从 2008 年 后 ， 每 加 仓 汽油 平均 价格 重新 开始 稳步 攀升 ， 到 2012 年 再 次 接近 历 
史 新 高 。 


元 ) 


每 加 仓 平 均 价格 





0 


2007.1 2007.8 2008.3 2008.10 2009.3 2009,12 2010.7 2011.2 2011,9 2012.3 


图 1-1 美国 常规 普通 汽油 每 加 仑 的 平均 价格 

资料 来 源 ; Energy Information Administration，U, S. Department of Energy 【美国 能 源 部 能 源 情 报 署 ) ，2012 年 3 月 。 

在 商务 与 经 济 出 版 物 中 经 常 可 以 看 到 时 间 序 列 数据 的 图 形 ， 这 些 图 形 可 以 帮助 分 析 家 们 了 解 过 去 发 生 的 情 
况 ， 确 定 现象 随时 间 变 动 的 趋势 ， 推 测 时 间 序 列 的 未 来 水 平 。 时 间 序 列 数据 的 图 形 有 各 种 形态 ， 如 图 1-2 所 示 。 
稍 加 研究 ， 这 些 图 形 通 常 易于 理解 和 解释 。 例 如 ， 图 1-2a 是 2002 ~ 2012 年 道琼斯 工业 平均 价格 指数 的 图 形 。 在 
2002 年 4 月 普通 股票 市 场 指数 接近 10 000 点 ， 在 随后 的 5 年 中 股指 不 断 攀 升 ， 到 2007 年 10 月 超过 14 000 点 。 然 
而 ， 在 2007 年 创 历史 新 高 后 ， 股 指 急 速 下 降 。 到 2009 年 3 月 ， 糟 糕 的 经 济 条 件 迫 使 道琼斯 工业 平均 价格 指数 重 
新 回 到 了 7 000 点 的 水 平 。 对 投资 者 来 说 ， 这 是 一 个 令 人 惊慌 、 失 去 信心 的 时 期 。 然 而 ， 到 2009 年 年 未 ， 股 指 有 
所 复苏 ， 达 到 10 000 点 。 到 2012 年 年 初 ， 股 指 稳步 攀升 ， 已 超过 13 000 点 。 

图 1-2b 是 2005 ~ 2011 年 麦当劳 公司 的 净 收 益 图 形 ，2008 年 和 2009 年 的 经 济 衰退 ， 实际 上 对 麦当劳 公司 而 言 
是 受益 的 ， 期 间 其 净 收益 创 了 历史 新 高 。 麦 当 劳 公司 的 净 收 益 的 增长 表明 公司 的 繁荣 是 由 于 在 经 济 衰落 期 人 们 减 
少 了 去 相对 昂贵 的 餐厅 就 餐 ， 转 而 寻求 麦当劳 提供 更 便宜 的 蔡 代 食品 。 在 2010 ~2011 年 ， 麦当劳 公司 的 净 收 益 继 
续 创 历史 新 高 。 

图 1:26 是 一 年 期 间 佛 罗 里 达州 南部 旅店 入 住 率 的 一 个 时 间 序 列 图 形 。 在 2 ~3 月 ， 当 佛罗里达 州 南部 的 气候 
对 游客 有 吸引 力 时 ， 出 现 95% ~98% 的 极 高 人 住 率 。 事 实 上 ， 每 年 的 1 ~4 月 是 佛罗里达 州 南 部 旅店 典型 高 人 住 
率 的 季节 。 另 外 ，8 ~ 10 月 人 住 率 较 低 ， 最 低 的 50% 入住 率 出 现在 9 月 ， 高 温 以 及 飓风 季节 是 这 段 时 间 人 住 率 下 
降 的 主要 原因 。 


注释 和 评论 


1. 观测 值 是 数据 集中 每 个 个 体 的 测量 值 的 集合 。 因 此 ， 观 测 值 的 个 数 总 是 与 个 体 的 个 数 一 致 。 每 个 个 体 的 测量 
值 的 个 数 等 于 变量 的 个 数 。 因 此 ， 数 据 项 的 总 数 是 个 体 的 个 数 乘 以 变量 的 个 数 。 

2. 数量 型 数据 可 以 是 离散 的 也 可 以 是 连续 的 = 度量 可 数 事物 多 少 的 数量 型 数据 是 离散 的 (例如 ,5 分 钟 内 接 到 
电话 的 个 数 )， 度 量 不 可 数 事 物 的 多 少 的 数量 型 数据 是 连续 的 (例如 ， 体 重 或 时 间 )。 
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图 1-2 时 间 序 列 数据 的 各 种 图 形 
1.3 数据 来 源 
数据 可 以 从 现 有 来 源 中 搜集 ， 或 通过 调查 获得 ， 亦 可 通过 为 了 得 到 新 数据 而 设计 的 实验 性 研究 获得 。 
1. 3. 1 现 有 来 源 


在 茶 些 情况 下 ， 为 某 一 特定 应 用 所 需要 的 数据 已 经 存在 。 公 司 保 持 有 关 其 和 雇员、 客户 和 义务 运作 等 各 种 数据 
库 。 关 于 雇员 工薪 、 年 龄 和 服务 年 限 的 数据 通常 可 以 从 内 部 个 人 记录 中 获得 ; 关于 销售 收入 、 广 告 支 出 、 配 送 成 
本 、 库 存 水 平 以 及 产量 的 数据 通常 可 以 从 其 他 内 部 记录 中 获得 ; 绝 大 多 数 公司 还 保存 其 客户 的 详细 资料 。 表 1-2 
是 一 些 从 公司 内 部 记录 得 到 的 常用 的 数据 。 


表 1-2 从 公司 内 部 记录 的 可 用 数据 的 例子 


数据 来 源 一 些 典 型 数据 的 可 用 数据 

雇员 记录 姓名 、 地 址 、 社 会 保障 号 码 、 工 资 、 休 假 天 数 、 病 假 天 数 和 奖金 
生产 记录 部 件 或 产品 号 、 生 产 数 量 、 直 接 人 工 成 本 和 原材料 成 本 

存货 记录 部 件 或 产品 号 、 库 存单 位 数 、 重 复 订 货 水 平 、 经 济 订货 批量 和 折扣 表 
销售 记录 , 产品 号 、 销 售 量 、 区 域 销售 量 和 分 类 客户 销售 量 

信用 记录 客户 名 称 、 地 址 、 电 话 号 码 、 信 贷 额 度 和 应 收 账 款 余额 


客户 概况 年 龄 、 性 别 、 收 入 永 平 、 家 庭 规模 、 地 址 和 偏好 


第 1 章 数据 与 统计 资料 9 


大 量 的 商务 和 经 济 数据 可 以 从 专门 从 事 搜集 和 保存 数据 的 机 构 那 里 获得 。 公 司 可 以 通过 租赁 或 购买 的 方式 使 
用 这 些 来 自 外 部 的 数据 。 邓 白 氏 、 彭 博 社 和 道琼斯 公司 是 三 家 能 够 为 客户 提供 大 量 商 业 数 据 服 务 的 公司 。AC- 
Nielsen 和 Information Resources 公司 也 成 功 地 为 广告 商 和 制造 商 提 供 商 务 数据 搜集 和 加 工 服务 。 

数据 也 可 从 各 类 行业 协会 和 专门 营利 的 机 构 中 获得 。 美 国旅 游 业 协会 保存 各 州 与 旅游 相关 的 信息 ， 如 游客 数 
量 和 旅游 费用 等 ， 旅 游行 业 的 公司 和 个 人 会 对 这 些 数据 感 兴趣 。 研 究 生 管理 咨询 委员 会 保存 了 关于 考试 成 绩 、 学 
生 特 长 和 研究 生 培 养 计 划 等 的 数据 。 大 多 数 来 自 这 些 类 型 的 数据 用 户 使 用 时 需要 文 付 适当 的 费用 。 

互联 网 的 持续 发 展 ， 已 使 其 成 为 数据 和 统计 信息 的 一 个 重要 来 源 。 几 乎 所 有 的 公司 都 会 提供 公司 的 一 般 信 
息 ， 如 销售 额 ` 雇员 数 、 产 量 、 产 品 价格 和 产品 说 明 的 网 站 。 另 外 ， 大 多 数 公 司 专门 在 互联 网 获取 有 用 的 市 场 信 
息 资料 。 因 此 ， 人 们 能 从 网 上 查阅 到 股票 报价 、 餐 馆 菜 价 、 工 资 数据 等 几乎 无 限 的 各 种 信息 。 

政府 机 构 是 现 有 数据 的 男 一 个 重要 来 源 。 例 如 ， 美 国 劳 工 部 保存 大 量 的 有 关 就 业 率 、 工 资 率 、 劳 动力 规模 和 
工会 会 员 等 数据 。 表 1-3 列 示 了 部 分 政府 机 构 和 它们 能 提供 的 一 些 数据 。 大 部 分 政府 机 构 也 通过 网 站 回 社 会 提供 
其 搜集 和 加 工 处 理 的 数据 。 图 1-3 显示 的 是 美国 劳工 统计 局 的 主页 。 


表 1-3 来自 选取 政 府 机 构 的 可 用 数据 的 例子 


政府 机 构 一 些 可 用 的 数据 
人 口 普查 局 人 口 数 、 家 庭 数 和 家 庭 收 入 的 数据 
联邦 储备 委员 会 货币 供应 信誉 记录 、 汇 率 和 贴现 率 的 数据 
管理 和 预算 办 公 室 财政 收入 、 支 出 和 联邦 政府 债务 的 数据 
商务 部 商务 活动 数据 、 分 行业 总 产值 、 分 行业 利润 水 平 以 及 行业 增长 和 下 降 的 数据 
劳工 统计 局 消费 支出 、 小 时 工资 、 失 业 率 、 安 全 记录 和 国际 统计 资料 
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图 1-3 美国 劳工 统计 局 主页 


1. 3.2 ”统计 研究 


有 时 一 些 特殊 需要 的 数据 并 非 总 能 从 现 有 来 源 中 获得 。 在 这 种 情况 下 ， 常 常 通过 统计 研究 的 方式 获得 数据 。 
统计 研究 可 划分 为 实验 性 的 或 观测 性 的 两 类 。 

在 一 项 实验 性 的 研究 “中 ， 首 先 要 确定 感 兴趣 的 主要 变量 ， 然 后 控制 一 个 或 多 个 其 他 变量 ， 以 便 获 得 它们 如 
何 影响 主要 变量 的 数据 。 例 如 ， 一 家 制药 公司 可 能 会 进行 一 项 实验 ， 以 获得 一 种 新 药 如 何 影响 血压 的 情况 。 在 研 
究 中 ， 和 应 压 是 被 关注 的 主要 变量 ， 新 药 的 剂量 是 影响 血压 的 另 一 个 变量 ， 实 验 希 望 能 找 出 新 药 的 剂量 与 血压 之 间 


加 ”曾经 进行 过 的 最 大 规模 的 实验 性 统计 研究 是 1954 年 美国 公共 卫生 署 的 沙 克 肴 艇 灰质 炎 疫 苗 实 验 ， 该 研究 从 全 美 小 学 1 ~3 年 级 的 学 
生 中 选 出 了 近 200 万 名 儿童 。 
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的 因果 关系 。 为 了 获得 有 关 新 药 效果 的 数据 ， 研 究 人 员 选 择 一 些 个 体 组 成 样本 。 控制 新 药 的 剂量 ,不 同 的 个 体 组 
给 予 不 同 的 药剂 水 平 ， 然 后 搜集 每 组 服药 前 后 的 血压 数据 。 实 验 数 据 的 统计 分 析 将 会 有 助 于 了 解 新 药 如 何 影响 
血压 。 

在 非 实验 性 或 观测 性 统计 研究 “中 ， 并 不 是 有 目的 地 去 控制 感 兴 趣 的 变量 。 调 查 也 许 是 观测 性 研究 中 最 常用 
的 方法 。 例 如 ， 在 一 个 征求 顾客 意见 的 调查 中 ， 首 先 要 明确 研究 的 问题 ， 然 后 设计 调查 问卷 ， 选 择 一 些 人 作为 样 
本 。 一些 饭店 利用 观测 研究 来 获取 顾客 对 饭店 的 食品 质量 、 服 务 和 就 餐 环境 等 方面 的 数据 。 佛 罗 里 达州 那不勒斯 
的 Chops City Grill 饭店 使 用 的 顾客 意见 调查 表 如 图 1-4 所 示 。 注 意 ， 请 顾客 根据 自己 的 感受 对 综合 经 验 、 接 待 问 
候 、 管 理 〈 和 餐 提 巡视 ) 和 整体 服务 等 12 个 变量 按 优秀 、 良 好 、 平 均 、 普 通 和 较 差 的 等 级 顺序 打分 ， 得 到 的 数据 
能 帮助 Chops City Grill 的 管理 人 员 保 持 高 水 平 的 饭店 食品 和 服务 质量 。 








图 1-4 佛罗里达 州 那不勒斯 的 Chops City Grill 饭店 的 顾客 意见 问卷 调查 表 


将 数据 和 统计 分 析 结 果 用 于 管理 决策 ， 管 理 人 员 必 须 清楚 获得 数据 所 需要 的 时 间 和 成 本 。 当 必须 在 一 个 相对 
较 短 的 时 期 内 获得 数据 时 ， 利 用 现 有 数据 来 源 是 一 个 比较 理想 的 方法 ， 如 果 重 要 的 数据 不 容易 从 现 有 来 源 中 获 
取 ， 则 必须 考虑 获取 数据 所 要 占用 的 时 间 和 成 本 。 在 所 有 的 情形 中 ， 决 策 制定 者 必须 意识 到 统计 分 析 对 决策 制定 
过 程 中 的 贡献 。 数 据 搜集 和 统计 分 析 所 付出 的 成 本 是 不 会 超过 利用 这 些 信息 制定 一 个 好 的 决策 所 节省 的 费用 的 。 


1. 3.3 ”数据 采集 误差 

管理 人 员 任 何 时 候 都 应 牢记 : 统计 研究 中 的 数据 是 可 能 产生 误差 的 。 使 用 错误 的 数据 也 许 会 比 不 使 用 任何 数 
据 更 糟糕 。 每 当 取得 的 数据 值 不 等 于 真 值 或 实际 值 时 ， 就 会 产生 数据 搜集 误差 〈 真 值 或 实际 值 是 可 以 通过 一 个 正 
确 的 程序 获得 ) ， 这 类 错误 可 能 在 许多 数据 搜集 方法 中 发 生 。 例 如 ， 采 访 者 可 能 会 发 生 记 录 错 误 ， 如 将 24 岁 写 为 


加 对 吸烟 者 和 不 吸烟 者 的 研究 是 观测 性 研究 ， 因 为 调查 者 并 不 确 知 或 控制 那些 人 会 将 吸烟 ,那些 人 不 吸烟 8 
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42 岁 ， 或 者 被 采访 者 回答 问题 时 可 能 曲解 了 问题 并 作出 不 正确 回答 。 

实验 数据 分 析 人 员 在 搜集 和 记录 数据 时 要 特别 小 心 ， 以 确保 不 发 生 错误 。 可 采取 一 些 特殊 措施 以 检查 数据 的 
内 在 一 臻 性。 例如， 这 种 措施 会 提醒 分 析 人 员 查 看 一 下 有 关 数 据 的 准确 性 : 如 一 个 年 龄 为 22 岁 的 人 却说 有 20 年 
的 工作 经 验 。 数 据 分 析 人 员 也 应 注意 查看 一 些 过 大 或 过 小 的 被 称 为 异常 值 的 数值 ， 它 们 可 能 是 有 错误 的 数据 。 在 
第 3 章 我 们 将 介绍 一 些 统计 学 家 用 来 识别 异常 但 的 方法 。 

在 数据 搜集 过 程 中 会 经 常 发 生 误 差 。 育 目地 利用 一 切 可 以 得 到 的 或 不 认真 地 搜集 到 的 数据 ， 将 可 能 产生 误差 
并 导致 作出 错误 的 决策 。 因 此 ， 按 照 正确 的 步骤 搜集 准确 的 数据 可 以 确保 决策 信息 的 可 信和 度 ， 提 高 数据 的 利用 
价值 。 


1.4 描述 统计 


绝 大 多 数 的 报纸 、 杂志 、 公 司 报告 和 其 他 出 版 物 上 的 统计 信息 以 读者 易于 理解 的 方式 汇总 和 披露 。 将 数据 以 
表格 、 图 形 或 数值 形式 汇总 的 统计 方法 被 称 为 描述 统计 (descriptive statistics) 。 

再 来 参见 表 1-1 中 参加 世界 贸易 组 织 的 60 个 国家 的 数据 集 。 用 描述 统计 的 方法 对 这 一 数据 集中 的 信息 进行 汇 
总 = 例如 ， 考 虑 未 来 2 年 内 国家 信用 评级 可 能 变动 的 方向 性 指标 一 一 惠 誉 评级 展望 变量 ， 该 变量 用 负面 、 稳 定 和 
正面 来 记录 。 表 1-4 给 出 了 每 一 个 成 员 国 惠 誉 评级 展望 数据 的 表格 汇总 ， 图 1-5 给 出 了 相同 数据 的 图 形 汇 总 ， 该 
类 图 形 称 为 条 形 图 。 这 些 表格 和 图 形 汇总 一 般 能 使 数据 更 容易 解释 。 我 们 能 很 容易 地 从 表 1-4 和 图 1-5 中 看 到 ， 
绝 大 多 数 信用 评级 的 惠 誉 展望 是 稳定 ， 有 65 儿 的 国家 具有 这 个 评级 。 信 用 评级 的 负面 展望 和 正面 展望 相似 ， 具 有 
负面 展望 的 国家 (18.3% ) 比 具 有 正面 展望 的 国家 (16. 7% ) 略微 多 一 些 。 


图 1-6 是 被 称 为 直方 图 的 表 1-1 中 人 均 GDP 这 个 数 。 表 1-4 60 个 国家 惠 誉 信用 评级 展望 类 型 的 频数 和 百分数 


量变 量 数据 的 图 形 汇总 。 从 直方 图 上 很 容易 看 出 , 60 个“ 二 尖 评级 属于 频数 ”百分数 (% 
国家 的 人 均 GDPE 的 变动 范围 为 0 ~ 60 000 美元 ， 主 要 集 ” ”下 耐 0 167 | 
中 在 10 000 ~ 20 000 美元 ， 只 有 !1 个 国家 的 人 均 GDP 超 2 pe 9 

过 50 000 美元 。 


除了 表格 和 图 形 表 示 方 式 以 外 ， 数 值 型 描述 统计 也 用 于 汇总 数据 。 最 常用 的 数值 型 描述 统计 是 平均 数 或 均 
值 。 利 用 表 1-1 中 60 个 国家 人 均 GDP 数据 ， 我 们 可 以 将 所 有 60 个 国家 的 人 均 GDP 相 加 再 除 以 60， 计 算出 平均 
数 。 这 样 可 得 到 人 均 GDP 的 平均 数 为 21 387 美元 。 这 个 平均 数 是 数据 的 中 心 趋势 或 中 心 位 置 的 一 个 度量 。 
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图 1-5 60 个 国家 惠 誉 信用 评级 展望 的 条 形 图 图 1-6 60 个 国家 人 均 CDP 的 直方 图 
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近年 来 ， 人 们 关注 描述 统计 的 拓展 和 表述 ， 对 这 类 统计 方法 的 兴趣 在 不 断 提 高 。 在 第 2 章 和 第 3 章 中 将 集中 
讨论 描述 统计 的 表格 、 图 形 和 数值 方法 。 


1.5 统计 推断 


在 很 多 情形 下 ， 我 们 需要 搜集 有 关 大 的 个 体 组 (个 人 、 公 司 、 和 选民、 家庭 、 产 品 和 客户 等 ) 的 信息 。 出 于 对 
时 间 、 费 用 和 其 他 因素 的 考虑 ， 只 能 从 大 的 个 体 组 的 一 小 部 分 中 搜集 数据 。 在 特定 研究 中 ， 较 大 的 个 体 组 称 为 总 
体 (Population ) ， 较 小 的 个 体 组 称 为 样本 (sample) 。 我 们 一 般 使 用 下 列 定义 。 





搜集 总 体 全 部 数据 的 调查 过 程 称 为 若 查 (census) ™ ,搜集 样本 数据 的 调查 过 程 称 为 为 抽样 调查 (sample sur- 
vey)o 统计 学 的 一 个 主要 贡献 就 是 利用 样本 数据 对 总 体 特征 进行 估计 和 假设 检验 。 这 一 过 程 被 称 为 统计 推断 
(statistical inference) 。 

作为 统计 推断 的 一 个 例子 ， 让 我 们 考察 由 Norris 电器 公司 所 做 的 一 项 研究 。Normis 电器 公司 生产 一 种 能 在 各 
种 电器 产品 上 使 用 的 高 亮度 灯泡 。 为 了 提高 灯泡 的 使 用 寿命 ， 产 品 设计 部 门 开 发 出 一 种 使 用 新 型 灯丝 的 灯泡 。 在 
这 个 例子 中 ， 总 体 定 义 为 使 用 新 灯丝 生产 的 所 有 灯泡 。 为 了 估计 新 灯丝 的 优点 ， 用 生产 出 的 200 只 新 灯丝 灯泡 组 
成 样本 ， 并 进行 测试 ， 记 录 每 只 灯泡 在 灯丝 被 烧 断 之 前 使 用 的 小 时 数 ， 样 本 数据 见 表 1-5。 


表 1-5 Norrs 电器 公司 200 只 灯泡 的 使 用 寿命 (单位 : 小 时 ) 
107 WA 68 97 76 79 94 59 98 57 
54 65 71 70 84 88 62 61 79 98 
66 62 79 86 68 74 61 82 65 98 
62 116 65 88 G64 79 78 79 77 86 
74 85 73 80 68 78 89 72 58 69 
92 78 88 po 103 88 63 68 88 81 
75 90 62 89 71 71 74 70 74 70 
6065 81 75 62 94 71 85 84 83 63 


81 62 79 83 93 6]1 65 62 92 65 





中 的 200 个 数值 相 加 再 除 以 200， CT 
计 灯 光 总 体 的 平均 使 用 寿命 是 76 个 小 时 。 图 1-7 是 Norris 电器 公司 的 统计 推断 过 程 的 示意 图 。 


加 ”美国 政府 每 10 年 进行 一 次 人 口 普 查 ， 而 市 场 调查 机 构 每 天 进行 抽样 调查 。 
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每 当 统计 学 家 利用 样本 对 我 们 感 兴趣 的 总 体 的 特征 进行 佑 计时， 他 们 通常 都 要 注 明 估计 的 质量 或 精确 度 。 以 
Norris 电器 公司 为 例 ， 统 计 学 家 可 能 指出 ， 新 灯泡 总 体 的 平 
均 使 用 寿命 的 点 估计 值 是 76 个 小 时 ， 边际 误差 为 +4 小 时 。 
这 样 ， 新 灯泡 总 体 的 平均 使 用 寿命 的 区 间 估 计 是 72 ~ 80 个 
小 时 。 统计 学 家 也 可 以 指出 ， 在 72 ~80 个 小 时 的 区 间 内 有 
多 大 的 把 握 程 度 包含 的 总 体 平均 数 。 


1.6 计算 机 与 统计 分 析 


由 于 涉及 大 量 的 数据 ， 因 此 统计 人 员 经 常 使 用 计算 机 软 
件 进行 分 析 。 例 如 ,在 Noris 电器 公司 的 例子 中 ( 见 
表 1-5)， 如 果 没 有 计算 机 ， 那么 计算 200 只 灯泡 的 平均 使 上 上 人 人 
用 寿命 将 相当 乏味 。 为 了 方便 计算 机 的 使 用 ， 教材 中 较 大 的 图 1-7 Noris 电器 公司 统计 推断 的 过 
数据 集 可 以 从 本 书 所 附 光 盘 获 得 ， 下 载 的 数据 文件 适合 于 Minitab 和 Excel 格式 。 本 章 末 的 附录 还 有 使 用 Minitab， 
Excel 和 Excel 的 插件 StatTools 来 完成 本 章 所 介绍 的 统计 方法 的 详细 步 又 。 


1.7 数据 挖掘 


由 于 有 磁卡 片 输入 机 、 条 形 码 扫描 仪 和 POS 终端 ， 许 多 机 构 每 天 可 以 获取 大 量 的 基础 数据 。 即 使 一 个 当地 的 
使 用 触摸 屏 显示 髓 来 登录 订单 和 处 理 账单 的 小 饭店 ， 搜 集 大 量 的 数据 也 是 有 意义 的 。 对 于 大 型 零售 公司 ， 搜 集 数 
据 的 真实 值 仅仅 是 概念 性 的 ， 并 且 和 弄 清 楚 如 何 有 效 地 使 用 这 些 数据 来 提高 效率 也 是 一 个 难题 。 例 如 ， 大 型 零售 商 
(如 沃尔玛 ) 每 天 获取 2000 万 -3 000 万 个 交易 数据 ， 电 信 公 司 (如 法 国电 信和 和 美国 电话 电报 公司 ) 每 天 有 超过 
3 亿 个 电话 记录 ，Visa 每 秒 处 理 6 800 次 支付 交易 ， 或 每 天 处 理 近 6 亿 个 交易 。 储 存 和 管理 这 些 交易 数据 是 一 件 有 
意义 的 事情 。 

术语 数据 仓库 是 指 获取 、 储 存 和 维护 数据 的 过 程 。 计 算 能 力 和 数据 搜集 工具 可 以 在 几 秒 内 实现 储存 和 检索 非 
常 庞大 的 数据 。 分 析 仓库 中 的 数据 可 以 对 机 构 作 出 新 的 战略 和 较 高 收益 的 决策 。 

数据 挖掘 (data mining) 问题 是 研究 从 非常 大 的 数据 库 中 开发 有 用 的 决策 信息 的 方法 。 利 用 统计 学 、 数 学 和 
计算 机 科学 的 综合 方法 ， 分 析 人 员 在 仓库 中 “挖掘 数据 ”， 并 将 其 转化 为 有 用 的 信息 ， 取 名 为 数据 挖掘 。 数 据 挖 
掘 领域 的 先驱 Kurt Thearling 博士 定义 数据 挖掘 为 “从 《庞大 的 ) 数据 库 中 自动 提取 预测 性 的 信息 ”。Thearling 博 
士 的 定义 中 的 两 个 关键 词 是 “自动 ”和 “预测 性 的 "。 数 据 挖 抉 系统 是 最 有 效 的 使 用 自动 程序 从 数据 中 提取 信息 ， 
而 其 用 户 仅 仅 需要 使 用 最 一 般 的 甚至 是 模糊 的 查询 。 同 时 数据 挖 据 软 件 使 揭示 隐藏 的 预测 信息 的 过 程 自 动 化 ， 而 
这 些 隐 藏 的 信息 过 去 是 需要 亲自 动手 进行 分 析 。 

拥有 大 型 客服 中 心 的 公司 (如 零售 商 、 金 融 机 构 和 通信 公司 ) 成 为 数据 挖掘 的 主要 应 用 者 。 数 据 挖掘 成 果 用 
于 帮助 零售 商 ( 如 亚马逊 和 巴 诺 ) 确定 已 经 购买 了 一 件 特殊 商品 的 消费 者 ， 是 否 还 有 可 能 购买 一 件 或 多 件 相关 的 
商品 。 然 后 ， 当 消费 者 登录 公司 网 站 并 且 购 买 一 件 商 品 时 ， 网 站 利用 突然 跳出 窗口 来 促使 消费 者 有 可 能 追加 购买 
额外 商品 。 在 另 一 个 应 用 中 ， 数 据 挖掘 用 于 确定 在 某 个 特殊 的 购物 旅行 中 消费 有 可 能 超过 20 美元 的 消费 者 ， 然 
后 将 这 些 消费 者 划分 为 收 到 特别 电子 邮件 赠 券 和 定期 电子 邮件 赠 券 的 类 型 ， 从 而 在 赠 券 到 期 之 前 促使 他 们 进行 下 
一 次 购物 旅行 。 

数据 挖掘 是 一 门 非常 依赖 于 统计 方法 的 技术 ， 这 些 统计 方法 有 多 元 回归 和 逻辑 回归 等 。 它 创造 性 地 综合 了 所 
有 这 些 方 法 以 及 包括 人 工 智能 和 机 器 学 习 等 计算 机 科学 技术 ， 从 而 使 数据 挖掘 是 有 效 的 。 由 诸如 甲骨 文 、Teradata 
和 SAS 等 公司 开发 的 用 以 实施 商用 数据 挖 据 的 软件 包 ， 需 要 大 量 的 时 间 和 金钱 上 的 投入 。 本 书 介绍 的 统计 概念 将 
有 助 于 理解 数据 挖掘 软件 包 中 使 用 的 统计 方法 ， 并 使 你 更 好 地 理解 其 所 产生 的 统计 信息 .。 
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由 于 统计 模型 在 建立 数据 挖掘 预测 模型 中 扮演 着 重要 的 角色 ”， 许 多 统计 学 家 在 建立 统计 模型 中 所 关注 的 问 
题 也 同样 适用 于 数据 挖 据 。 例 如， 在 统计 研究 中 关注 的 问题 是 模型 的 可 靠 性 ， 适 用 于 一 个 特殊 样本 数据 的 统计 模 
型 并 不 意味 着 它 同样 适用 于 其 他 数据 。 评 估 模 型 可 靠 性 的 一 个 常见 方法 是 将 样本 数据 分 为 两 部 分 : 训练 数据 集 和 
检验 数据 集 。 如 果 使 用 训练 数据 建立 的 模型 能 准确 地 预测 检验 数据 的 数值 ， 则 我 们 认为 这 个 模型 是 可 靠 的 。 数 据 
挖掘 优 于 传统 统计 学 的 一 点 是 : 大 量 的 可 用 数据 能 使 数据 挖掘 软件 划分 数据 集 ， 因 此 由 训练 数据 集 所 建立 的 模型 
的 可 靠 性 可 以 利用 其 他 数据 来 检测 。 从 这 个 意义 上 讲 ， 数 据 集 的 划分 允许 用 数据 挖掘 来 建立 模型 和 相互 关系 ， 然 
后 快速 观察 它们 是 否 可 以 重复 ， 是 否 适 用 于 新 的 不 同 的 数据 。 另 一 方面 ， 对 数据 挖掘 应 用 的 一 个 忠告 是 ， 有 这 人 么 
多 的 数据 可 用 ， 将 会 产生 一 个 过 度 拟 合 模型 的 危险 性 ， 在 这 一 点 似乎 存在 误导 人 性 的 联系 和 因果 关系 的 结论 。 数 据 
挖掘 结果 和 附加 检测 的 解释 将 有 助 于 避免 这 些 隐 患 。 


1.8 统计 实践 的 道德 准则 


道德 行为 是 我 们 在 一 切 活动 中 的 追求 。 由 于 统计 在 数据 的 搜集 、 分 析 、 表 述 和 说 明 过 程 中 的 重要 作用 ， 道 德 
问题 继而 在 统计 中 产生 。 在 统计 研究 中 ， 不 道德 行为 形式 很 多 ， 其 中 包括 不 正确 的 抽样 、 不 恰当 的 数据 分 析 、 误 
导 性 的 图 表 绘 制 、 不 恰当 地 使 用 统计 摘要 和 统计 结果 的 片面 解释 ， 等 等 。 

你 开始 做 统计 工作 时 ,我 们 就 鼓励 你 在 搜集 数据 、 分 析 、 口 涉 陈 述 以 及 在 书面 报告 中 ， 要 保持 公平 、 谨 
慎 、 客 观 和 中 立 的 态度 。 另 外 ， 作 为 数据 的 使 用 者 ， 你 也 应 该 意识 到 他 人 在 统计 过 程 中 不 道德 行为 的 可 能 性 。 
当 你 在 报纸 、 电 视 、 互 联网 或 其 他 媒介 上 见 到 统计 时 ， 要 持 几 分 怀疑 态度 ， 关 注 这 些 统计 的 来 源 、 目 的 和 客 
观 性 。 : 

美国 统计 协会 一 一 美国 最 高 统计 和 统计 工作 者 的 专业 组 织 ， 发 布 报告 “统计 实践 的 道德 准则 ”“”， 引 在 帮助 
统计 工作 者 作出 符合 道德 准则 的 决定 ， 并 交流 心得 ， 帮 助 学 生 学 会 如 何 负 责任 地 进行 统计 工作 。 报 告 中 包括 67 
条 准则 、8 个 主要 领域 ， 分别 为 : 职业 精神 ; 对 投资 者 、 客 户 和 雇主 的 责任 ; 对 出 版 物 和 证 明 的 责任 ; 对 研究 课 
题 的 责任 ; 对 研究 团队 的 同事 的 责任 ; 对 其 他 统计 学 家 或 统计 从 业 人 员 的 责任 ; 关于 不 当 行 为 的 指控 的 责任 ; 机 
构 、 个 人 、 代 理 人 的 雇主 或 其 他 聘用 的 统计 从 业 人 员 的 客户 的 责任 。 

职业 精神 领域 的 一 条 准则 解决 的 问题 是 多 次 检测 直到 获得 理想 结果 的 行为 。 例 如 ， 在 1.5 节 中 我 们 讨论 了 
Noris 电 融 公 司 的 一 个 200 只 新 灯丝 高 亮度 灯泡 的 样本 的 统计 研究 ， 样 本 的 平均 使 用 寿命 为 76 个 小 时 ， 由 此 推断 
出 所 有 新 灯丝 灯泡 的 使 用 寿命 。 然 而 ， 思 考 一 下 ， 由 于 Norris 只 选取 了 一 个 样本 ， 那 么 另外 一 个 样本 可 能 会 提供 
不 同 的 平均 使 用 寿命 ， 这 么 想 不 是 没有 道理 的 。 

假定 Normis 的 管理 层 希 望 抽样 结果 能 支持 他 们 声称 的 新 灯泡 的 平均 使 用 寿命 至 少 是 80 个 小 时 。 再 假定 Norris 
的 管理 层 决定 继续 研究 ， 不 断 生产 并 抽样 检测 ， 每 次 都 抽 200 只 新 灯丝 灯泡 ， 直 到 有 一 个 样本 的 平均 使 用 寿命 达 
到 至 少 80 个 小 时 。 如 果 研 究 重 复 进行 许多 次 ， 最 终 会 有 一 个 样本 ( 仅 是 偶然 ) 给 出 期 望 的 结果 ， 从 而 支持 Norris 
作出 的 声明 。 在 这 种 情形 下 ,消费 者 将 受到 误导 ， 认 为 新 产品 会 比 现在 的 要 好 。 显 然 ， 这 种 行为 是 不 道德 的 ， 它 
代表 统计 在 实践 中 出 现 了 重大 的 使 用 错误 。 

对 出 版 物 和 证 明 领 域 里 有 几 条 道德 准则 涉及 数据 的 处 理 问题 。 例 如 ， 一 位 统计 学 家 需要 说 明 一 项 研究 中 考虑 
的 所 有 数据 ， 并 对 实际 上 使 用 的 样本 进行 解释 。Noris 电器 公司 最 初 样本 中 的 200 只 灯泡 的 使 用 寿命 是 76 个 小 
时 ; 这 比 管理 层 希望 得 到 的 至 少 80 个 小 时 的 结果 要 小 很 多 。 现 在 假设 在 回顾 了 平均 使 用 寿命 为 76 个 小 时 的 结果 
之 后 ，Norris 乙 除 所 有 使 用 寿命 小 于 或 等 于 70 个 小 时 的 观察 值 ， 并 宣称 生产 过 程 中 的 启动 问题 造成 了 这 些 灯泡 的 
瑕 普 。 之 后 ， 样 本 中 剩余 灯泡 的 平均 寿命 就 成 了 82 个 小 时 。 你 对 Noris 所 宣布 的 灯泡 的 平均 寿命 是 82 个 小 时 产 


牟 ”在 揭示 数据 中 的 关系 和 预测 未 来 结果 时 ， 统 计 方法 在 数据 挖掘 中 扮演 着 重要 的 攻 色 。 然 而 ， 数 据 控 据 的 全 部 领域 以 及 统计 在 数据 欠 
据 中 的 应 用 已 超出 本 书 的 范围 。 
名 American Statistical Association “Ethical Guidelines for Statistical Practice”，1999. 


生 过 怀疑 吗 ? 
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如 果 Norris 把 使 用 寿命 小 于 或 等 于 70 个 小 时 的 灯泡 剔除 ， 只 是 为 了 提供 82 个 小 时 的 平均 使 用 寿命 ， 那么 毫 
无 疑问 这 种 做 法 就 是 不 道德 的 。 但 是 ， 如 果 这 些 灯泡 真是 由 于 在 生产 过 程 中 的 启动 问题 造成 的 瑕 疣 ， 因 而 不 应 该 
包含 在 分 析 中 ， 进 行 研究 的 统计 人 员 应 该 考虑 所 有 的 数据 并 对 抽样 的 具体 操作 进行 解释 。 和 否则， 就 可 能 产生 误 


导 ， 对 公司 和 统计 人 员 都 构成 不 道德 行为 。 


在 美国 统计 协会 报告 的 共享 价值 部 分 有 一 条 准则 提出 ， 统 计 从 业 人 员 应 当 避 免 任何 对 预测 结果 有 倾向 性 的 统 
计 工 作 。 当 使 用 不 具有 代表 性 的 样本 而 作出 声明 时 ， 这 种 不 道德 的 行为 就 会 发 生 。 例 如 ， 在 美国 的 许多 地 区 ， 饭 
店内 是 不 允许 吸烟 的 。 假 如 烟草 业 的 说 客 在 允许 吸烟 的 饭店 进行 调查 ， 目 的 是 估计 赞成 在 饭店 内 允许 吸烟 的 比 
例 。 抽 样 结果 表明 90% 的 受 访 者 同意 在 饭店 内 允许 吸烟 。 根 据 这 个 抽样 结果 ， 说 容声 称 饭店 所 有 就 餐 者 中 有 90% 
的 人 赞成 在 饭店 内 允许 吸烟 。 在 这 个 案例 中 ， 我 们 应 该 指出 只 在 允许 吸烟 的 饭店 所 做 的 抽样 会 牌 曲调 查 结果 。 如 
采 只 报告 该 研究 的 这 个 最 后 结果 ， 而 不 熟悉 研究 的 细节 〈 如 样本 是 在 允许 吸烟 的 饭店 搜集 的 ) ， 读 者 就 会 被 误导 。 

美国 统计 协会 报告 的 涵盖 范围 很 广 , 道德 准则 不 仅 适 用 于 统计 工作 者 ， 同 样 对 统计 信息 的 使 用 者 也 有 效 。 当 
你 从 事 统计 研究 工作 时 ， 我们 建议 你 读 一 读 这 个 报告 ， 对 道德 相关 问题 有 更 好 的 了 解 ， 并 获得 一 些 缘 景 知识 ， 以 
确保 当 你 开始 在 实践 中 使 用 统计 工作 时 ， 你 的 工作 符合 道德 标准 。 





统计 是 搜集 、 人 分析、 表述 和 解释 数据 的 艺术 和 科 
学 。 几 乎 每 个 商务 或 经 济 专业 的 大 学 生 都 要 学 习 统 计 
学 课程 。 我 们 以 描写 商务 和 经 济 中 典型 的 统计 应 用 开 
始 本 章 的 论述 。 

数据 是 指 搜集 和 分 析 的 事实 和 数字。 我 们 可 以 用 
四 种 测量 尺度 来 取得 一 个 特定 变量 的 数据 ， 它们 是 名 
义 尺度 、 顺 序 尺度 、 间 隔 尺 度 积 比率 尺度 。 当 数据 用 
于 确认 个 体 属 性 的 标记 或 名 称 时 ， 相 应 变量 的 测量 尺 
度 称 为 名 义 尺度 。 如 果 数 据 显 示 名 义 数 据 的 性 质 ， 并 
且 数 据 的 顺序 或 等 级 是 有 意义 的 ， 则 测量 尺度 是 顺序 
尺度 。 如 果 数 据 具 有 顺序 数据 的 性 质 ， 并 且 可 以 按 菜 
一 固定 度量 单位 表示 数值 间 的 间隔 ， 则 测量 尺度 是 间 
阳 尺 度 。 最 后 ， 如 果 数 据 具 有 间隔 数据 的 所 有 性 质 ， 
并 且 两 个 数值 之 比 是 有 意义 的 ， 则 测量 尺度 是 比率 
尺度 。 
关键 术语 
statistics ,统计 学 搜集、 分 析 、 表 述 和 解释 数据 的 

艺术 和 科学 。 
data 数据 是 描述 和 解释 所 搜集 、 分 析 和 汇总 的 事 
实 和 数字 。 
data set 数据 集 在 特定 研究 中 搜集 到 的 所 有 数据 。 
elements 个 体 搜集 数据 的 实体 。 
variable 变量 个 体 中 所 感 兴趣 的 特征 。 
observation ”观测 值 对 某 一 特定 个 体 搜 集 的 测量 值 





领域 ， 





和 数量 型 数据 。 分 类 型 数据 是 用 标记 或 名 称 来 识别 每 
一 个 体 属性 。 分 类 型 数据 既 可 以 用 名 义 尺度 度量 也 可 
以 用 顺序 尺度 度量 ， 既 可 以 是 非 数 值 型 的 也 可 以 是 数 
值 型 的 。 数 量 型 数据 是 表示 大 小 或 多 少 的 数值 。 数 量 
型 数据 既 可 以 用 间隔 尺度 度量 也 可 以 用 比率 尺度 度量 。 
只 有 当 数 据 是 数量 型 的 ， 普 通 的 算术 运算 才 有 意义 。 
因而 ， 适 合 于 数量 型 数据 的 统计 计算 并 非 总 适用 于 分 
类 型 数据 。 

在 第 1.4 和 第 1.5 节 我 们 介绍 了 描述 统计 和 统计 
推断 。 描 述 统 计 是 用 表格 、 图 形 和 数值 方法 来 汇总 数 
据 。 统 计 推 断 是 利用 样本 数据 估计 总 体 特征 并 进行 假 
设 检 验 的 过 种 。 在 本 章 最 后 三 节 ， 给 出 了 计算 机 在 统 
计 分 析 中 作用 的 信息 ， 介 绍 了 数据 控 据 这 个 比较 新 的 








的 集合 。 

nominal scale ”名义 尺度 是 指 用 数据 的 标记 或 名 称 
来 识别 个 体 属 性 的 一 种 变量 测量 尺度 ， 名 义 数据 既 
可 以 是 非 数 值 型 的 ， 也 可 以 是 数值 型 的 。 

ordinal scale 顺序 尺度 具有 名 义 数 据 的 性 质 ， 并 能 
显示 数据 的 顺序 或 等 级 有 明确 意义 的 一 种 变量 测量 
尺度 。 顺 序数 据 既 可 以 是 非 数 值 型 的 ， 也 可 以 是 数 
值 型 的 。 
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interval scale 间隔 尺度 具有 顺序 数据 的 性 质 ， 并 可 
以 按 某 一 固定 度量 单位 表示 数值 间 的 间隔 的 一 种 变 
量 测量 尺度 。 间隔 数据 永远 是 数值 型 的 。 

ratio scale 比率 尺度 具有 所 有 间隔 数据 的 性 质 ， 并 
且 两 个 数值 之 比 是 有 意义 的 一 种 变量 测量 尺度 。 比 
率 数 据 永 远 是 数值 型 的 。 

categorical data ”分 类 型 数据 ”用 于 识别 每 一 个 体 属 
性 的 标记 或 名 称 。 分 类 型 数据 既 可 以 用 和 名义 尺度 度 
量 也 可 以 用 顺序 尺度 度量 ， 既 可 以 是 非 数值 型 的 也 
可 以 是 数值 型 的 s 

quantitative data ”数量 型 数据 表示 事物 大 小 或 多 少 
的 数值 。 数 量 型 数据 既 可 以 用 间隔 尺度 度量 也 可 以 
用 比率 尺度 度量 。 

categorical variable 分 类 变量 用 分 类 型 数据 表示 的 
变量 。 

quantitative Variable 数量 变量 用 数量 型 数据 表示 的 
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2. 美国 能 源 部 提供 各 种 汽车 燃料 燃烧 效率 的 信息 。 
表 1-6 是 由 10 辆 汽车 组 成 的 一 个 样本 (Fuel Econo- 
my website，2008 年 2 月 22 日 )。 数 据 有 汽车 类 型 
(小 弄 、 中 型 或 大 型 ) 、 发 动机 的 汽 征 数 、 每 加 个 城 
市 行驶 里 程 〈 单 位 : 英里 )、 每 加 仑 = 公路 行驶 里 
程 以 及 推荐 使 用 的 燃料 〈 柴 油 、 优 质 汽 油 或 普通 
汽油 )。 

a， 这 个 数据 集中 有 多 少 个 体 ? 
b. 这 个 数据 集中 有 多 少 变量 ? 
c, 哪些 变量 是 分 类 变量 ， 哪 些 变量 是 数量 变量 ? 


变量 。 

cross-sectional data 截面 数据 ”在 相同 或 近似 相同 
的 同一 时 点 止 搜集 的 数据 。 
time series data 时 间 序 列 数据 在 几 个 时 期 内 搜集 


的 数据 。 

descriptive statistics 描述 统计 数据 的 表格 、 图 形 和 
数值 汇总 的 方法 。 

population ”总体 ”在 一 个 特定 研究 中 所 有 感 兴 趣 的 个 
体 组 成 的 集合 。 


sample 样本 总 体 的 一 个 子 集 。 

census ”普查 ”搜集 总 体 全 部 数据 的 调查 。 

sample survey 抽样 调查 搜集 样本 数据 的 调查 。 

statistical inference 统计 推断 ”利用 样本 数据 估计 或 
对 总 体 特征 进行 假设 检验 的 过 程 。 

data mining 数据 挖掘 ”利用 统计 和 和 计算 机 科学 的 方 

法 从 非常 大 的 数据 库 中 获取 有 用 信息 的 过 程 。 


Se Ps 
的 
| i B+ 
有 有 a 
Ee 二 二 -” 


d. 每 个 变量 使 用 鄂 种 类 型 的 测量 尺度 ? 

4. 表 1-7 中 给 出 7 所 大 学 的 数据 ， 其 中 有 捐赠 额 ( 单 
位 ; 10 亿美 元 ) 和 申请 者 被 接受 的 比例 ( 《今日 美 
国 》，2008 年 2 月 3 日 )。 每 所 学 校 所 在 的 州 、 校 园 
所 处 位 置 以 及 学 校 代 表 队 在 美国 大 学 生体 育 总 会 
(NCAA) 的 分 级 可 以 从 美国 教育 统计 中 心 网 站 
(2008 年 2 月 22 日 ) 上 得 到 。 

a. 这 个 数 乌 集中 有 多 少 个 体 ? 

b. 这 个 数据 集中 有 多 少 个 变量 ? 

c， 哪些 变量 是 分 类 变量 ， 哪 些 是 数量 变量 ? 


表 1-6 10 辆 汽车 燃料 燃烧 效率 信息 


汽车 类 型 汽 红 数 城市 行驶 【英里 /加 仓 ) “公路 行驶 《英里 /加 合 ) 燃料 

奥迪 A8 大 型 12 13 19 优质 汽油 
宝马 328Xi 小 型 6 17 25 优质 汽油 
凯迪 拉克 CTS 中 型 6 16 25 普通 汽油 
克莱斯勒 300 大 型 8 13 18 优质 汽油 
福特 福克斯 小 型 4 24 33 普通 汽油 
现代 伊兰特 中 型 4 25 33 普通 汽油 
吉普 大 切诺基 中 型 6 17 26 柴油 

庞 蒂 亚 克 C6 小 型 6 15 22 普通 汽油 
丰田 凯美瑞 中 型 4 21 31 普通 汽油 
大 众 捷达 小 型 5 21 29 普通 汽油 


加 本 书 所 有 章节 的 习题 部 分 中 单数 题 请 参见 本 书 配套 光盘 。 
思 1 加 仑 (美制) =3.8 升 。 
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表 1-7 7 所 大 学 的 数据 


学 校 
安 默 特 斯 学 院 a 
杜 克 大 学 北 卡罗来纳 
哈佛 大 学 


斯 尖 斯 英 尔 学 院 E77 | wx 


宾夕法尼亚 大 学 


成 廉 如 斯 学 院 
耶鲁 大 学 


6.《 外 交 事 务 》 杂 志 进 行 了 一 项 调查 ， 以 了 解 其 订阅 
者 的 简况 (外交 事 务 》，2008 年 2 月 23 日 )。 提 出 
的 问题 如 下 : 

& 在 过 去 的 12 个 月 内 您 有 几 天 住 在 旅店 ? 

b. 您 在 哪儿 购书 ? 列 出 了 3 个 选项 : 书店 、 互 联网 
和 读书 俱乐部 

c. 您 是 和 否 拥有 或 租赁 过 豪华 车 ?〈 是 或 否 ) 

d. 您 多 大 年 龄 ? 

e, 在 过 去 3 年 的 国外 旅行 中 ， 您 的 上 且 的 地 是 哪里 ? 
列 出 了 7 个 国外 目的 地 

对 每 一 个 问题 的 数据 是 分 类 型 的 还 是 数量 型 的 发 表 

意见 。 

. 金融 时 报 / 哈 里 斯 民意 调查 对 6 个 欧洲 国家 和 美国 的 
成 年 人 每 月 进行 一 次 民意 在 线 调查 。 美 国有 1015 名 
成 年 人 参加 了 工 月 份 的 民意 调查 ， 其 中 一 个 问题 是 : 
“您 如 何 评价 联邦 银行 在 处 理 金融 市 场 信用 问题 时 的 
表现 ?” 可 能 的 答案 有 :; 优秀 、 和 良好、 中 等 、 较 差 和 
极 差 〈Harmigs Interactive website，2008 年 1 月 ) 

a. 这 项 调查 的 样本 容量 是 多 大 ? 

b. 数据 是 分 类 型 的 还 是 数量 型 的 ? 

c. 对 这 一 问题 ， 用 平均 数 或 百分比 数据 汇总 ， 哪 种 
方法 更 合适 ? 

d 在 美国 的 回答 者 中 ，10% 的 人 说 联邦 银行 做 得 很 
好 ， 有 多 少 人 给 出 这 种 管 复 ? 

10. 运输 统计 局 综合 住房 调查 是 一 项 年 度 调查 ， 并 作为 
美国 交通 运输 部 的 信息 来 源 。 在 部 分 调查 中 ， 采 访 
了 调查 者 ， 并 询问 如 下 问题 ;“ 机 动车 驾驶 员 在 开车 
时 是 否 可 以 手持 电话 接听 。” 可 能 的 答案 有 : 非常 同 
意 、 稍 微 同意 、 稍 微 反 对 和 非常 反对 。 对 这 个 问题 
有 44 人 表示 非常 同意 、130 人 表示 稍微 同意 、165 
人 表示 稍微 反对 、741 人 表示 非常 反对 (Bureau of 
Transportation website，2010 年 8 月 )。 


Oo 
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a 这 个 问题 的 答案 提供 的 是 分 类 型 数据 还 是 数量 
型 数据 ? 

b. 对 这 一 问题 的 管 案 ， 用 平均 数 或 百分比 数据 汇 
总 ， 哪 种 方法 更 合适 ? 

c. 表示 非常 同意 允许 机 动车 声 驶 员 在 开车 时 可 以 
手持 电话 接听 的 管 案 占 多 大 比例 ? 

d， 该 结果 和 预示 普遍 支持 还 是 反对 允许 机 动车 驾驶 
员 在 开车 时 可 以 手持 电话 接听 ? 


. 夏威夷 旅游 局 搜 柠 在 夏威夷 的 游客 数据 。 下 列 问 


题 是 在 飞 往 夏 威 夷 的 航班 上 ， 向 乘客 分 发 的 问卷 

中 所 征询 的 16 个 问题 中 的 一 部 分 。 

e 此 行 是 我 的 第 几 次 夏 威 砍 之 旅 : 第 1，2 
全 4… 次 

。 此 行 的 主要 理由 是 : 
等 10 种 ) 

e。 我 计划 住 在 ; 
等 11 类 ) 

。 在 夏威夷 扣留 的 总 天 数 

a. 被 研究 的 总 体 是 什么 ? 

b. 对 飞 往 夏威夷 航班 的 乘客 总 体 ， 用 问卷 调查 是 
一 个 好 六 法 加? 

c. 对 4 个 问题 中 的 每 一 个 所 提供 的 是 分 类 型 数据 
还 是 数量 型 数据 进行 评论 。 

下 面 是 2007 ~ 2010 年 Hertz，Avis 和 Dollar 这 3 家 

提供 租车 服务 的 公司 的 租车 数量 数据 (单位: 

1 000 辆 ) 。 


(包括 度假 、 惯 例 和 蜜月 


(包括 旅店 、 公 寓 、 亲 威 和 宿营 


“公司 2007 2008 2009 2010 
Hertz 327 311 286 290 
Dollar 167 140 106 108 
Avis 204 220 300 270 


a. 绘制 2007 ~ 2010 年 每 个 租车 公司 租车 数量 的 时 
间 序 列 图 ， 在 同一 张 图 上 显示 3 家 公司 的 时 间 
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序列 。 

b. 市 场 占 有 率 最 大 的 租车 公司 是 哪 家 ? 对 市 场 占 
有 率 如 何 随时 间 变 动 加 以 评价 。 

c. 用 2010 年 的 租车 数据 绘制 条 形 图 。 这 张 图 是 依 
据 截 面 数据 还 是 时 间 序 列 数 据 绘制 的 ? 


: 美国 能 源 部 能 源 信息 局 提供 了 2007 年 1 月 至 2012 


年 3 月 之 间 美 国 常规 普通 汽油 每 加 仓 平 均 价格 的 时 

间 序 列 数 据 (Energy Information Administration web- 

site,，2012 年 4 月 )。 利 用 互联 网 获取 2012 年 3 月 

以 来 的 常规 普通 汽油 每 加 仑 的 平均 价格 。 

a. 扩展 图 1-1 的 时 间 序 列 图 形 。 

b. 你 如 何 解释 从 2012 年 3 月 以 来 常规 普通 汽油 每 
加 全 的 平均 价格 ? 

c， 时 间 序 列 是 否 继续 呈现 每 加 仓 的 平均 价格 在 夏 
季 上 涨 ? 请 解释 。 


. 关于 完税 、 在 线 纳税 筹划 和 电子 申报 服务 ， 奥 论 研 


究 公司 对 1021 名 成 年 人 (18 岁 及 以 上 ) 进行 电话 
随机 调查 。 调 查 结果 表明 其 中 有 684 人 计划 使 用 电 
子 申报 他 们 的 税务 (CompleteTax Tax Prep Survey， 
2010 年 ) 。 

a. 确定 一 种 描述 统计 量 ， 能 用 于 估计 所 有 使 用 电 
子 申 报 的 纳税 人 的 百分数 。 

b. 调查 报告 说 ， 人 们 最 常用 的 报税 方法 是 雇佣 会 
计 师 或 职业 报税 人 。 如 果 有 60% 的 调查 者 使 用 
了 这 种 方式 ， 那 么 有 多 少 人 会 雇佣 会 计 师 或 职 
业 报税 人 ? 

c， 人 们 申报 纳税 常用 的 其 他 方法 还 有 和 手工 填报 、 
使 用 在 线 税务 服务 和 使 用 税务 软件 。 申 报 纳税 
方法 的 数据 是 分 类 型 数据 还 是 数量 型 数据 ? 

《 巴 伦 周 刊 》Big Money 对 131 名 投资 经 理 进行 了 一 

次 民意 调查 ， 结 果 如 下 : 

e 43% 的 经 理 认为 他 们 自己 在 股票 市 场 操 作 极 佳 。 

。 在 接 下 来 的 12 个 月 里 ， 股 票 的 平均 预期 回报 率 
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为 11.2% 。 
e 21% 的 经 理 认为 医疗 健康 类 股票 极 有 可 能 是 接 
下 来 12 个 月 中 股票 市 场 的 主导 板块 。 
e 当 问 及 预计 科技 股 和 电信 上 股 估计 大 约 需 要 多 长 
时 间 才 恢复 上 涨 时 ， 他 们 的 回答 都 是 2.5 年 。 
a 列举 两 种 描述 统计 。 
b. 对 接 下 来 12 个 月 里 投资 经 理 总 体 的 股票 平均 预 
期 回报 率 作 出 推断 。 
c 对 科技 股 和 电信 有 上 股 恢复 上 涨 的 时 间 长 度 进行 
推断 。 
尼尔森 公司 从 欧洲 、 亚 太 、 美 洲 和 中 东 的 47 个 市 
场 对 消费 者 进行 调查 ， 以 确定 影响 他 们 购买 食品 
地 点 的 最 主要 的 因素 。 用 等 级 1 (最 低 ) 到 5《【 最 
高 ) 表示 。 等 级 最 高 的 因素 是 物 有 所 值 ， 平均 分 
为 4.32; 等 级 次 高 的 因素 是 更 好 地 选 反 优质 品牌 
和 产品 ， 平 均 分 为 3.78; 等 级 最 低 的 因素 是 使 用 
可 循环 购物 贷 和 和 包装， 平均 分 为 2.71 (Nielsen 
website，2008 年 2 月 24 日 )。 假 设 你 受 雇 于 一 个 食 
总 连 贺 店 进行 类 似 的 调查 ， 以 确定 在 北上 趟 罗 来 纳 
州 夏 洛 特 市 连锁 店 ， 消 费 者 认为 哪个 因素 是 影响 
他 们 确定 购买 食品 地 点 的 最 主要 因素 。 
a. 你 进行 的 这 项 研究 的 总 体 是 什么 ? 
b. 你 如 何 搜集 这 项 研究 的 数据 ? 


. 5 名 学 生 期 中 考试 成 绩 的 样本 数据 如 下 : 72，65， 


82,，90，76。 下 列表 述 中 哪 一 个 是 正确 的 ， 哪 一 个 

因 太 空 泛 而 受到 怀疑 ? 

a 5 名 学 生 的 平均 期 中 成 绩 是 77。 

b. 参加 考试 的 所 有 学 生 的 平均 期 中 成 绩 是 77。 

c. 参加 考试 的 所 有 学 生 的 平均 期 中 成 绩 的 估计 值 
是 77。 

d. 一 半 以 上 参加 考试 的 学 生 的 成 绩 在 70 ~85。 

e. 如 果 这 个 样本 中 还 包含 其 他 5 史学 人 村， 他 们 的 
成 绩 将 在 65 ~90。 
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oi 


Wh 












20 商务 与 经 济 统计 


实践 中 的 统计 


高 露 洁 - 


棕 模 公司 ” 


纽约 州 ， 纽 约 市 


高 露 洁 - 标 榄 (Colgate-Palmolive) 公司 于 1806 年 
在 纽约 开业 时 ， 还 只 是 一 家 经 营 香 所 和 蜡烛 的 小 商店 。 
但 今天 ,高露洁 一 棕 柳 公司 已 是 一 家 遍布 世界 200 多 
个 国家 和 和 地区， 拥有 超过 40000 名 员工 的 大 公司 。 除 
了 最 著名 的 品牌 高 露 洁 、 棕 柳 、Ajax 和 Fab 外 ， 同 时 
还 兼 营 Mennen、 和 希 尔 斯 科学 食品 (Hill's Science Diet ) 
和 和 希 尔 斯 处 方 食品 (Hill’s Prescription Diet) 等 产品 。 

高 露 洁 = 棕 槛 公司 在 其 家 用 洗衣 粉 产品 的 生产 过 
程 质量 保证 计划 中 使 用 统计 学 方法 。 一 个 关键 问题 是 
顾客 对 盒 装 洗 衣 粉 数量 的 满意 度 。 相 同 尺 寸 的 每 一 全 
盒子 里 都 装 入 相同 重量 的 洗衣 粉 ， 但 是 洗衣 粉 所 点 的 
体积 受洗 衣 粉 密度 的 影响 例如 邵 果 洗衣 粉 的 密度 
较 大 时 ， 要 达到 所 规定 的 包装 重量 ， 就 只 需要 较 少 体 
积 的 洗衣 粉 。 这 样 ， 当 顾客 打开 包装 盒 时 ， 盒 子 看 上 
去 显然 没有 装 满 。 

为 了 控制 洗衣 粉 密度 过 大 这 个 问题 ， 需 要 对 洗衣 
粉 密度 的 可 接受 范围 加 以 限制 。 定 期 抽取 统计 样本 ， 
并 测量 每 一 个 洗衣 粉 样本 的 密度 。 然 后 将 汇总 数据 提 
供给 操作 人 员 ， 以 便 在 需要 将 密度 保持 在 规定 的 质量 
规格 内 时 ， 操 作 人 员 可 以 采取 正确 的 措施 。 

根据 在 一 周 内 采集 的 一 个 容量 为 150 的 样本 ， 得 
到 密度 的 频数 分 布 和 直方 图 如 右 图 所 示 。 密 度 水 平 超 
过 0.40 是 不 可 以 接受 的 上 限 。 频数 分 布 和 直方 图 显 
示 ， 所 有 产品 的 密度 小 于 或 等 于 0. 40 时 ， 操 作 符 合 质 


正如 第 1 章 所 述 ， 数 据 可 以 分 为 分 类 型 或 数量 型 ， 


量 标 准 。 检 查 这 些 统计 汇总 结果 的 管理 人 员 对 洗衣 粉 
产品 的 质量 感到 满意 。 

在 本 章 中 ,我 们 将 学 习 有 关 描 述 统计 的 表格 法 和 
图 形 法 ， 包 括 频数 分 布 、 条 形 图 、 直 方 图 、 茎 叶 显 示 、 
交叉 分 组 表 等 内 容 。 这 些 方法 的 目的 是 汇总 数据 ， 以 


便 使 统计 数据 易于 理解 和 解释 。 
密度 数据 的 频数 分 布 

密度 频数 
0. 29 ~0. 30 30 
0. 31 -0.32 75 
0. 33 =0. 34 32 
0.35 ~0. 36 9 
0. 37 ~0; 38 3 
0. 39 ~0.40 Fi 

总 计 150 


75 






小 于 1% 的 样本 
数据 接近 不 可 接 
受 的 0.40 水 平 


50 


频数 


25 


0 a 
oy 
SO 


> $v Se 
密度 
密度 数据 的 直方 图 


分 类 型 数据 (categorical data) 是 用 标签 或 名 称 来 识别 项 目 


的 类 型 。 数 量 型 数据 (quantitative data) 是 表示 多 少 或 大 小 的 数值 。 本 章 介 绍 的 是 用 于 汇总 分 类 型 数据 和 数量 型 


数据 的 表格 法 和 图 形 法 。 人 们 在 年 度 报告 、 
解 它们 是 怎样 形成 的 以 及 如 何 解 释 它 们 至 关 重 要 。 


报纸 文章 和 研究 报告 中 常 可 以 看 到 数据 的 表格 和 图 形 汇总 ， 因 此 ， 理 


我 们 首先 讨论 汇总 单 变 量 数据 的 表格 法 和 图 形 法 ， 接 下 来 讨论 汇总 两 个 变量 数据 的 表格 法 和 图 形 法 ， 它 们 在 
某 种 程度 上 揭示 了 两 个 变量 之 间 的 关系 。 术 语 数 据 可 视 化 (data visualization) 常常 用 于 描述 汇总 和 表述 一 个 数据 
集 信息 的 图 形 显 示 的 效用 。 最 后 一 节 给 出 了 数据 可 视 化 的 简介 和 创建 有 效 的 图 形 显示 的 指导 方针 。 

现代 统计 软件 包 提供 了 汇总 数据 和 编制 图 形 的 强大 功能 ，Minitab 和 Excel 是 其 中 应 用 最 广泛 的 两 个 软件 包 。 


在 本 章 的 附录 中 ， 我 们 将 演示 它们 的 部 分 功能 。 


昌 ”作者 感谢 为 “实践 中 的 统计 ”提供 了 案例 的 高 露 洁 - 棕 槛 公司 质量 保证 部 经 理 Wiliam R. Fowle。 
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2. 1 汇总 分 类 变量 的 数据 
2. 1. 1 ”频数 分 布 
我 们 从 频数 分 布 〈fequeney distibution) 的 定义 开始 ， 讨 论 如 何 使 用 表格 法 和 图 形 法 汇总 分 类 型 数据 


a 了 本 


EC | .| 





ES ee La 


—— 


我 们 用 下 面 的 例子 来 说 明 如 何 编制 和 解释 分 类 型 数据 的 频率 分 布 。 可 口 可 乐 、 健 怡 可 乐 、 胡 椒 博 士 、 百 事 可 
乐 和 雪 碳 是 5 种 受 欢迎 的 软饮料 。 假 设 表 2-1 中 的 数据 是 50 次 购买 软饮料 的 样本 数据 。 
_ 表 2-1 50 次 软饮料 购买 的 样本 数据 


可 日 可 乐 可 口 可 乐 可 口 可 乐 雪 状 可 伯 可 乐 
健 怡 可 乐 胡椒 博士 健 恰 可乐 胡椒 博士 健 怡 可 乐 
百事 可 系 雪 恬 可 口 可 乐 百事 可 乐 百事 可 乐 
健 怡 可 乐 可 所 可 乐 雪 恬 健 怡 可 乐 百事 可 乐 
可 口 可 系 健 怡 可 乐 百事 可 乐 百事 可 乐 百事 可 乐 
可 口 可 乐 可 各 可乐 可 是 可 乐 可 日 可 乐 百事 可 乐 
胡椒 博 主 可 口 可 乐 可 口 可 乐 可 口 可 乐 可 口 可 乐 
健 愉 可乐 雪 萎 可 口 可 乐 可 口 可 乐 胡椒 博士 
百事 可 乐 可 口 可 乐 百事 可 乐 百事 可 乐 百事 可 乐 
百事 可 乐 健 怡 可 乐 可 日 可 乐 胡椒 博士 雪 恬 


为 了 编制 这 些 数据 的 频数 分 布 ， 我 们 计算 表 2-1 中 每 一 种 软饮料 的 出 现 次 数 。 可 口 可乐 出 现 19 次 ， 健 怡 可 乐 
出 现 8 次 ， 胡 椒 博 士 出 现 S 次 ， 百 事 可 乐 出 现 13 次 ， 雪 三 出 现 5 次 。 这 些 数字 汇总 在 表 2-2 的 频数 分 布 中 。 
这 个 频数 分 布 汇总 说 明了 在 50 次 购买 软饮料 的 样本 中 ，5 种 软 表 2-2 “购买 软饮料 的 频数 分 布 


饮料 是 如 何 分 配 的 。 它 提供 了 比 表 2-1 中 的 原始 数据 更 多 的 内 涵 。 ” 软 K 料  ， 凯 必 
观察 这 个 频数 分 布 ， 我 们 看 到 可 日 可 乐 是 排 在 首位 ， 百 事 可 乐 居 第 可 口 可 乐 19 
二 位 ， 第 三 位 是 健 怡 可 乐 ， 委 闫 和 胡椒 博士 并 列 第 四 。 频 数 分 布 还 健 怡 可 乐 8 
揭示 了 这 5 种 销售 量 最 高 的 软饮料 受 欢迎 程度 的 信息 。 骨 椒 博士 ; 

百事 可 乐 13 
2. 1.2 ”相对 频数 分 布 和 百分数 频数 分 布 雪 开 人 有 


频数 分 布 表 明 在 几 个 互 不 重 又 的 组 别 中 每 一 组 项 目的 个 数 ( 即 -si 一 7 50 
; 匡 尼 所 占 的 比例 或 百分比 更 感 兴 。 一 组 的 相对 频数 是 属于 该 组 别 的 项 目 个 


频数 ) 。 然而 ， 2 对 条 





二 的 百分数 蜗 归 旱情 河山 训 示 愉 100。 

相对 频数 分 布 (relative frequency distribution) 是 每 一 组 相对 频数 数据 的 表格 汇总 。 百 分 数 频 数 分 布 (percent 
frequency distribution) 是 每 一 组 百分数 频数 数据 的 表格 汇总 。 表 2-3 是 软饮料 数据 的 相对 频数 分 布 的 百分数 频数 
分 布 。 在 表 2-3 中 ， 我 们 看 到 可 口 可 乐 的 相对 频数 为 19/50 = 0. 38 ， 健 怡 可 乐 的 相对 频数 为 8/50 =0. 16， 依 此 类 
推 。 从 百分数 频数 分 布 中 ， 我 们 看 到 在 购买 的 软饮料 中 ， 有 38% 是 可 口 可 乐 ， 有 16% 是 健 怡 可 乐 ， 等 等 。 我 们 还 
注意 到 前 三 类 软饮料 占 购买 量 的 80% ( =38% +26% +16% ) 。 
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表 2-3 购买 软饮料 的 相对 频数 和 百分数 频数 分 布 


软饮料 相对 频数 百分数 频数 
可 口 可 乐 0. 38 38 
健 怡 可 乐 0. 16 16 
胡椒 博士 0. 10 10 
百事 可 乐 0. 26 26 
雪 雹 0.10 二 
总 计 1. 00 100 


2. 1. 3 ”条 形 图 和 饼 形 图 

条 形 图 (bar chart) “是 一 种 图 形 方 法 ， 用 来 描绘 已 汇总 
的 分 类 型 数据 的 频数 分 布 、 相 对 频数 分 布 或 百分数 频数 分 布 。 
在 图 形 的 轴 上 (通常 是 横 轴 )， 我 们 规定 了 用 来 对 数据 分 组 
(类 别 ) 的 标记 ， 在 图 形 的 另 一 轴 上 (通常 是 纵 轴 ) ， 标 出 频 
数 、 相 对 频数 或 百分数 频数 的 刻度 。 然 后 ， 将 用 一 个 固定 宽 














6 
度 的 长 条 绘制 在 每 一 组 的 标记 上 , 将 这 个 长 条 的 高 度 延伸 ， “4 
直到 达到 该 组 的 频数 、 相 对 频数 或 百分数 频数 。 对 于 分 类 型 。 。 
数据 ， 应 将 这 些 长 条 分 隔 开 ， 以 强调 每 一 组 是 相互 独立 的 事 i i 
意图 形 是 如 何 显示 出 可 口 可 乐 、 百 事 可 乐 和 健 怡 可 乐 成 为 最 图 2-1 购买 软饮料 的 条 形 图 


受 欢迎 的 品牌 的 。 

饼 形 图 (pie chart) 是 为 一 种 描绘 分 类 型 数据 的 相对 频 
数 和 百分数 频数 分 布 的 图 形 方 法 。 为 了 绘制 饼 形 图 ， 我 们 首 
先 画 一 个 圆 来 代表 所 有 的 数据 ， 然 后 用 相对 频数 把 圆 细 分 成 
在 干 刷 形 部 分 ， 这 些 扇形 与 每 一 组 的 相对 频数 相对 应 。 例 如 ， 
因为 一 个 圆 有 360*， 而 可 口 可 乐 的 相对 频数 是 0.38， 则 饼 形 
图 中 代表 可 石 可 乐 的 局 形 部 分 为 0.38 x360° =136. 8”， 而 代 
表 健 怡 可 乐 的 扇形 部 分 为 0. 16 x360° =57. 6" ， 对 其 他 组 进行 
相似 的 计算 ， 就 得 到 图 2-2 中 的 饼 形 图 。 显 示 每 一 个 局 形 部 
分 的 数值 可 以 是 频数 、 相 对 频数 或 百分数 频数 。 

包含 颜色 、 了 明 影 、 图 例 ^ 文本 字体 和 三 维 透视 图 使 用 的 一 一 
许多 选项 可 以 增加 条 形 图 和 饼 形 图 的 视觉 显示 。 当 仔细 使 用 图 2-2 购买 软饮料 的 饼 形 图 
时 ， 这 些 选 项 可 以 提供 更 有 效 的 显示 。 但 是 ， 这 并 不 总 是 实 : 
情 。 例 如 ， 考 虑 图 2-3 中 的 软饮料 的 三 维 饼 形 图 。 将 其 与 





图 2-2 中 较为 简单 的 显示 相 比 ， 三 维 透视 图 没有 增加 新 的 理 eb 
解 。 事 实 上 ， 由 于 你 不 得 不 以 一 个 角度 观看 图 2-3 中 的 三 维 站 
饼 形 图 ， 而 不 是 直 视 ， 因 此 ,形象 化 可 能 较为 困难 。 图 2-3 雪 钴 





图 例 的 使 用 也 使 你 的 眼睛 在 键盘 和 图 之 间 来 回 地 移动 。 图 2-2 
中 较为 简单 的 图 在 饼 形 图 上 直接 显示 百分比 和 类 别 ， 更 有 效 。 


图 2-3 ”购买 三 维 饼 形 
一 般 地 ， 饼 形 图 不 是 星 现 对 比 的 百分比 的 最 佳 途径 。 研 OP RE 


台 在 质量 管理 应 用 中 ， 用 条 形 图 来 鉴 明 问题 最 重要 的 原因 。 当 条 形 图 按 高 度 降 序 顺 序 从 堪 到 右 依次 排列 时 ， 最 频繁 发 生 的 原因 出 现在 
第 一 位 时 ， 这 种 条 形 图 称 作 帕 雷 托 图 。 这 种 图 形 是 以 创立 者 意大利 经 济 学 家 维尔 弗 雷 多 ， 帕 雷 托 (Vilfredo Pareto) 的 名 字 命 各 的 。 
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究 表 明 人 们 更 愿意 准确 判断 长 度 间 的 差异 ， 而 非 角 度 (或 部 分 ) 间 的 差异 。 当 进行 这 样 的 比较 时 ， 我 们 建议 你 使 
用 类 似 图 2-1 的 条 形 图 。 在 2.5 节 我 们 给 出 了 创建 有 效 的 视觉 显示 的 更 多 指导 。 


注释 和 评论 

1 在 二 个 频数 分 布 中 ， 组 数 通 常 与 在 数据 中 发 现 的 类 别 数 相 同 ， 就 像 本 节 中 购买 软饮料 数据 中 的 情况 一 样 。 
数据 只 涉及 5 种 软 钦 料 ， 每 一 种 软饮料 定义 为 一 个 独立 的 频数 分 布 组 别 。 涉 及 所 有 的 软饮料 的 数据 将 需要 
很 多 类 别 ， 其 中 的 大 部 分 组 别 中 只 有 很 少 的 购买 次 数 。 大 多 数 统计 专家 建议 把 频数 较 小 的 组 合并 到 一 个 叫 
“其 他 ”的 综合 组 中 去 。 只 有 5 名 或 更 少 频 数 的 组 通常 被 这 样 处 理 。 

2. 在 任何 频数 分 布 中 ,频数 的 总 和 总 是 等 于 观测 值 的 数目 。 在 任何 相对 频数 中 ， 相 对 频数 的 总 和 总 是 等 于 
1.00， 在 任何 百分数 频数 分 布 中 ， 百 分 数 的 总 和 总 是 等 于 100。 





2, 下 面 给 出 了 一 部 分 相对 频数 分 布 : 


a. 这 些 数据 是 分 类 型 的 还 是 数量 型 的 ? 


二 ee b. 编制 这 些 数 据 的 频数 分 布 和 百分数 频数 分 布 。 
B GY8 c. 绘制 这 些 数 据 的 条 形 图 和 饼 形 图 。 
C 0.40 d. 以 样本 为 依据 ， 哪 个 电视 节目 拥有 最 多 的 电视 观 
- 众 ? 哪个 位 居 第 二 ? 
a 组 别 D 的 相对 频数 是 多 少 ? 6. 尼尔森 媒体 研究 提供 了 电视 史上 收视 率 前 25 名 的 单 
b. 落 样本 容量 为 200， 则 组 别 D 的 频数 是 多 少 ? 个 节目 的 清单 ( 《世界 年 鉴 )>，2012 年 ) 。 下 面 是 制 
c. 求 频数 分 布 。 作 收 视 率 前 25 名 电视 节目 的 电视 网 的 数据 。 
d. 求 百 分 数 频 数 分 布 。 hs ea vm hn /Be 
应 用 CBS NBC NBC NBC ABC 
ABC NBC ABC ABC NBC 
4. 2010 ~2011 年 电视 季 ， 收 视 率 最 高 的 5 个 辛 迪 加 电 CBS NBC CBS ABC NBC 
视 节 目 是 : 《命运 之 轮 》( Wheel of Fortune,，WoF )、 J th Ch SMe it 


《好 汉 两 个 半 》( Two and Half Men，THM)、《 危 险 a. 编制 数据 的 频数 分 布 、 百 分 数 频 数 分 布 以 及 条 
边缘 》(Jeopardy，jJep)、《 朱 人 迪 法 官 》(Judge Judy， 形 图 。 


林 J) 和 《 奥 首 拉 脱 口 秀 》( Oprah Winfrey Show， b. 在 提供 收视 率 最 高 的 电视 节目 方面 ， 哪 个 电视 网 
OWS) (Nielsen Media Research website, 2012 年 4 月 做 得 最 好 ? 比较 ABC，CBS 和 NBC 的 表现 。 


16 日 ) 。 由 50 名 电视 观众 组 成 一 个 样本 ， 表 明 首选 ”8 美国 棒球 名 人 堂 位 于 美国 纽约 州 的 十 煌 镇 (Cooper- 


节目 的 数据 如 下 。 town) 。 由 入 选 名 人 堂 的 355 名 球员 组 成 一 个 样本 ， 
标本 样本 数据 如 下 所 示 。 每 一 个 观测 值 表 示 入 选 名 人 堂 
THM WoF OWS Jep THM 的 球员 的 主要 位 置 投手 (P)， 接手 (HH)， 一 和 全 
Jep OWS Wok Wok WoF 村 《43> 二 党 和 (2)， 三 汪汪 0603》 方 ， 沦 击 手 (S)， 
We Ge wo 左 外 场 手 ( 工 ) ， 中 外 场 手 -(C) 和 右 外 场 手 (R)。 
THM J]] 机 jep THM 
OWS OWS 可 可 Jep Ep Rn i | mp” HP 
he Ys 沽 信 让 :| 
ed i ee a Hd Rr 1 Be Pryb En hee 
和 本 1 HH 
Jep THM WoF Jep Jep 


WoF THM OWS OWS Jop a_ 用 频数 分 布 和 相对 频数 分 布 来 汇总 数据 。 
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b, 哪个 位 置 的 名 人 堂 球员 最 多 ? b. 编制 百分数 频数 分 布 。 
c， 哪个 位 置 的 名 人 堂 球员 最 少 ? c. 绘制 百分数 频数 分 布 的 条 形 图 。 
d. 哪个 外 场 位 置 (L、C 或 RR) 的 名 人 堂 球员 最 多 ? d. 美国 成 年 人 如 何 评价 联邦 银行 处 理 金融 市 场 中 
e， 比较 内 场 人 数 (1、2、3 和 S) 与 外 场 人 教工 、 的 信用 问题 。 
Cn 和 R)。 e. 在 西班牙 ，1 114 名 成 年 人 被 问 及 “您 如 何 评价 
10. 《金融 时 报 》 /哈里 斯 民意 调查 对 6 个 欧洲 国家 和 对 欧洲 中 央 银 行 在 处 理 金融 市 场 信用 问题 的 表 
美国 的 成 年 人 每 月 进行 一 次 民意 在 线 调 查 。 有 现 ?” 得 到 如 下 的 百分数 频数 分 布 : 


1015 名 成 年 人 参加 了 2008 年 1 月 份 的 调查 ， 其 中 
一 个 问题 是 : “您 如 何 评价 联邦 银行 在 处 理 金融 市 
场 信用 问题 时 的 表现 ?” 可 能 的 答案 有 : 优秀 、 度 
好 、 中 等 、 较 差 和 极 差 ( Harris Interaetive website ， 
2008 年 1 月 )。 这 1015 人 的 回答 数据 保存 在 名 为 
FedBank 的 文件 中 。 

a. 编制 频数 分 布 。 比较 西班牙 和 美国 的 结果 。 


2.2 数量 型 数据 汇总 


2. 2. 1 频数 分 布 


正如 第 2.1 节 中 定义 的 那样 ， 频 数 分 布 是 表示 在 几 个 互 不 重 倒 的 组 中 每 一 组 所 包含 的 项 目 个 数 (或 频数 ) 的 
表格 汇总 。 这 个 定义 也 适用 于 数量 型 数据 。 然 而 ， 对 于 数量 型 数据 ， 在 定义 用 于 频数 分 布 的 互 不 重奏 的 组 时 ， 我 
们 必须 更 加 小 心 。 

例如 ， 考 虑 表 2-4 中 的 数量 型 数据 。 这 些 样本 数据 是 一 家 名 则 Sanderson 一 Clifford 的 小 型 会 计 师 事务 所 对 20 


百分数 频数 分 布 
0 





位 客户 完成 年 未 审计 所 需 的 时 间 (单位 : 天 ) 。 对 于 数量 型 数据 ， 表 2-4 年 未 审计 时 间 (单位 : 天 ) 
确定 频数 分 布 的 组 时 ， 三 个 必要 的 步骤 是 : 一 
(1) 确定 五 不 重 耸 组 的 组 数 。 汪 x 
(2) 确定 每 组 的 宽度 。 时 2 33 28 

(3) 确定 组 限 。 We 


让 我 们 通过 编制 表 2-4 的 审计 时 间 数 据 的 频数 分 布 来 演示 这 些 步 又。 

组 数 ”组 是 通过 对 数据 规定 范围 而 形成 的 ， 这 个 规定 的 范围 用 于 对 数据 进行 分 组 。 作 为 一 般 性 原则 ， 我 们 建 
议 使 用 5 ~20 个 组 。 如 果 数 据 项 较 少 ， 只 用 5 组 或 6 组 就 可 以 汇总 数据 。 如 果 数 据 项 较 多 ， 通 常 需要 较 多 的 组 。 
分 组 的 目的 是 用 足够 多 的 组 来 显示 数据 的 变异 性 ， 而 不 是 有 这 人 么 多 的 组 却 只 包含 很 少 的 数据 项 。 因 为 表 2-4 中 的 
数据 项 相对 较 少 (n=20) ， 我 们 决定 选择 编制 5 组 的 频数 分 布 。 

组 宽 “编制 数量 型 数据 频数 分 布 的 第 二 步 是 选择 组 宽 。 作 为 一 般 性 原则 ， 我 们 建议 每 组 的 宽度 相同 5。 因 此 ， 
对 组 数 和 组 宽 的 选择 就 不 能 独立 决定 。 较 大 的 组 数 意味 着 较 小 的 组 宽 ， 反 之 亦 然 。 为 了 确定 一 个 近似 的 组 宽 ， 我 
们 从 确定 数据 的 最 大 值 和 最 小 值 开始 。 一 旦 确定 了 期 望 的 组 数 ， 我 们 就 可 以 用 下 面 的 表达 式 来 确定 近似 的 组 宽 。 

近似 组 党 = 数据 最 大 信 = 数据 最 小 人 


由 式 (2-2) 给 出 的 近似 组 宽 ， 可 以 根据 编制 频数 分 布 的 人 的 偏好 取 整 为 更 方便 的 值 。 例 如 ， 近 似 组 宽 为 
9.28， 可 以 简单 地 取 整 为 10 ， 因 为 10 作为 组 宽 在 编制 频数 分 布 时 更 方便 。 

对 于 年 末 审 计时 间 数 据 ， 最 大 值 是 33 ， 最 小 值 是 12。 因 为 我 们 决定 用 5 组 来 汇总 数据 ， 由 式 (2-2) 可 计算 
出 近似 组 宽 是 (33 - 12)/5 =4.2。 因 此 ， 我 们 决定 以 5 天 作为 频数 分 布 的 组 宽 。 


日 ”每 组 的 宽度 相同 ， 可 减少 使 用 者 的 不 恰当 诠释 机 会 。 
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在 实践 中 ， 组 数 和 近似 组 宽 要 通过 反复 试验 确定 。 一 旦 选 定 了 一 个 可 能 的 组 数 ， 根 据 式 (2-2) 就 可 以 找 出 
近似 组 宽 。 这 个 过 程 能 对 不 同 的 组 数 反复 进行 。 最 终 ， 分 析 人 员 利 用 判断 来 确定 组 数 和 组 宽 的 组 合 ， 得 到 最 佳 的 
汇总 数据 的 频数 分 布 。S 

对 于 表 2-4 中 的 审计 时 间 数 据 ， 在 决定 了 使 用 5 组 ， 每 一 组 以 5 天 为 组 宽 后 ， 下 一 步 的 工作 就 是 规定 每 一 组 
的 组 限 。 

组 限 ”选择 组 限 必须 使 每 一 个 数据 值 属 于 且 只 属于 一 组 。 下 组 限定 义 为 被 分 到 该 组 的 最 小 可 能 的 数据 值 ， 上 
组 限定 义 为 被 分 到 该 组 的 最 大 可 能 的 数据 值 。 在 编制 分 类 型 数据 的 频数 分 布 时 ， 我 们 不 需要 规定 组 限 ， 因 为 每 一 
数据 项 都 会 自然 地 落 入 分 隔 开 的 组 内 。 但 对 于 数量 型 数据 ， 比 如 表 2-4 中 的 审计 时 间 ， 组 限 对 确定 每 个 数据 项 的 
归属 很 有 必要 。 

对 于 表 2-4 中 的 审计 时 间 数 据 ， 我 们 对 第 一 组 选择 10 天 为 下 组 限 和 14 天 为 上 组 限 。 该 组 在 表 2-5 中 记 为 10 ~ 
14。 最 小 数据 值 12 包含 在 10~ 14 组 。 然 后 ,我 们 对 下 一 组 选择 15 天 为 下 组 限 和 19 天 为 上 组 限 。 我 们 继续 确定 
下 、 上 组 限 ， 直 到 获得 全 部 的 5 个 组 : 10 ~14, 15 ~19, 20~24, 25 ~29 和 30 ~ 34。 最 大 数据 值 33 包含 在 30 ~ 
34 组 。 相 邻 两 组 的 下 组 限 之 差 就 是 组 宽 。 利 用 前 两 个 下 组 限 10 和 15， 我 们 看 到 ， 组 宽 为 15 - 10=5。 

一 旦 确定 了 组 数 、 组 宽 和 组 限 ， 通 过 统计 属于 每 一 组 的 数据 值 的 个 数 ， 我 们 可 以 得 到 频数 分 布 。 例 如 ， 
表 2-4 中 的 数据 显示 ， 有 4 丫 值 (12, 14, 14 和 13) 属于 10~14 组 。 因 此 ，10 ~ 14 组 的 频数 是 4。 对 15 ~19， 
20 ~24,25 ~29 和 30 ~34 各 组 继续 计数 过 程 ， 得 到 表 2-5 中 的 频数 分 布 。 利 用 这 个 频数 分 布 ， 我 们 可 以 观察 到 : 

(1) 最 频繁 发 生 的 审计 时 间 在 15 ~ 19 天 这 一 组 ， 在 20 个 审计 时 间 中 有 8 个 属于 这 一 组 。 

(2) 只 有 一 次 审计 需要 30 天 或 更 多 的 时 间 。 


根据 人 们 对 频数 分 布 的 兴趣 ， 可 能 得 出 其 他 结论 。 一 个 频数 分 表 2-5 审计 时 间 数 据 的 频数 分 布 
布 的 价值 就 在 于 它 提 供 了 对 数据 的 深刻 理解 ， 而 直接 观察 原始 的 未 ”市 i 时间 ( 天 ) 频数 
经 组 织 的 数据 ， 是 无 法 获得 这 种 深刻 理解 的 。 人 
组 中 值 ” 在 一 些 应 用 中 , 我 们 想 知道 数量 型 数据 频数 分 布 的 组 15 19 g 
中 值 ， 组 中 值 (class midpoint) 是 下 给 限 和 上 组 限 的 中 间 值 。 对 审 20 ~24 5 
计时 间 数 据 ，5 个 组 的 组 中 值 分 别 是 12，17，22 ，27 和 32。 25~29 2 
30 ~34 1 
2. 2.2 ”相对 频数 分 布 和 百分数 频数 分 布 总 计 20 


我 们 以 与 分 类 型 数据 同样 的 方式 来 定义 数量 型 数据 的 相对 频数 
和 百分数 频数 分 布 。 首 先 ， 我 们 记得 ， 相 对 频数 是 属于 一 个 组 的 观察 值 的 比例 。 对 于 个 观察 值 


组 的 相对 频数 = 和 要 要 


组 的 百分数 频数 是 相对 频数 乘 以 100。 
的 相对 频数 分 布 和 百分数 频数 分 布 。 注意 ， 有 0. 40 或 40% 的 审计 审计 时 间 (天 ) 相对 频数 百分数 频数 


需要 15 ~ 19 天 时 间 ， 只 有 0.05 或 5% 的 审计 需要 30 天 或 更 多 时 间 。 10 ~ 14 0.20 20 

通过 使 用 表 2-6， 我 们 还 能 够 得 到 其 他 的 解释 和 理解 。 15%19 0.40 40 

20 ~24 0, 25 25 

2: 2. 3 打点 图 25 ~29 0. 10 10 

打点 图 (dot plot) 是 一 种 最 简单 的 数据 图 形 汇总 方式 。 横 轴 是 30 ~34 0.05 于 
数据 的 值 域 ， 每 一 个 数据 值 由 位 于 横 轴 上 的 点 表示 。 图 2-4 是 表 2-4 8& 计 lo 1 


中 审计 时 间 数 据 的 打点 图 ，3 个 点 位 于 横 轴 刻度 18 之 上 ， 表 明 有 3 


名 对 一 个 数据 集 ， 不 存在 最 佳 的 频数 分 布 。 不 同 的 人 可 以 编制 不 同 的 ， 但 同样 可 接受 的 频数 分 布 。 频 数 分 布 的 目的 是 揭示 自然 的 分 组 
和 数据 的 变异 性 。 
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次 审计 时 间 为 18 天 。 打 点 图 能 够 显示 数据 的 细节 ， 且 有 利于 比较 两 个 或 更 多 变量 的 数据 分 布 。 


10 15 25 30 35 


20 
审计 时 间 天数) 
图 2-4 审计 时 间 数 据 的 打点 图 


2.2.4 直方 图 


直方 图 (histogram) 是 一 种 常用 的 数量 型 数据 的 图 形 描述 方式 。 由 先前 已 汇总 出 的 频数 分 布 、 相 对 频数 分 布 
或 百分数 频数 分 布 等 资料 可 绘制 直方 图 。 将 所 关心 的 变量 放置 在 横 轴 上 ， 将 频数 、 相 对 频数 或 百分数 频数 放置 在 
纵 轴 上 ， 就 可 以 绘制 一 个 直方 图 。 每 组 的 频数 、 相 对 频数 或 百分数 频数 用 一 个 长 方形 绘制 ， 长 方形 的 底 放置 在 横 
轴 上 ， 以 组 宽 为 底 ， 以 每 组 相应 的 频数 、 相 对 频数 或 百分数 频数 为 高 。 

图 2-5 是 审计 时 间 数 据 的 直方 图 。 我 们 注意 到 ， 最 大 频 
数 的 组 由 15 ~ 19 天 这 一 组 的 长 方形 表示 ， 长 方形 的 高 度 表示 
这 一 组 的 频数 是 8。 这 些 数据 的 相对 频数 分 布 或 百分数 频数 
分 布 的 直方 图 看 起 来 与 图 2-5 中 的 直方 图 一 样 ， 只 是 纵 轴 用 并 
相对 频数 或 百分数 频数 标记 。 要 

正如 图 2-5 所 示 ， 直 方 图 中 邻近 的 长 方形 是 互相 连接 
的 。 与 条 形 图 不 同 ， 直 方 图 相 邻 组 的 长 方形 之 间 没 有 自然 | 
的 间隔 。 这 种 形式 是 直方 图 的 惯例 。 因 为 审计 时 间 数 据 的 rer py ry 


“a WD -3 





各 组 表示 为 10 ~14, 15 ~19, 20 ~24，25 ~29 和 和 30 ~34, 审计 时 间 (天 ) 
各 组 间 从 14~15，19 ~20，24~25 和 29 ~30 有 一 个 单位 图 2-5 ”审计 时 间 数 据 的 吉方 图 


的 间隔 ， 在 绘制 直方 图 时 可 以 消除 该 间隔 。 在 审计 时 间 数 
据 的 直方 图 中 消除 了 组 间 的 间隔 ， 有 助 于 说 明 即 使 数据 是 近似 的 ,在 第 一 组 的 下 限 和 最 后 一 组 的 上 限 间 所 有 
的 值 都 是 可 能 的 。 

直方 图 的 一 个 最 重要 应 用 是 提供 了 分 布 形态 的 信息 。 图 2-6 是 四 个 根据 相对 频数 分 布 绘制 的 直方 图 ， 图 2-6a 
显示 一 个 数据 集 的 直方 图 有 一 定 程度 的 左 偏 。 这 个 直方 图 说 明 ， 如 果 图 形 的 尾部 向 左 延 伸 一 些 ， 则 图 形 左 偏 。 考 
试 成 绩 是 这 种 直方 图 的 典型 应 用 。 因 为 没有 成 绩 在 100% 之 上 ， 大 多 数 成 绩 又 常常 在 70% 之 上 ， 只 有 极 少数 的 成 
绩 很 低 。 图 2-6b 显示 一 个 数据 集 的 直方 图 有 一 定 程 度 的 右 偏 。 这 个 直方 图 说 明 ， 如 果 图 形 的 尾部 向 右 延 伸 一 些 ， 
则 图 形 右 俱 。 像 房屋 价格 的 数据 可 能 是 这 种 直方 图 的 例子 ， 少 数 昂贵 的 住宅 造成 右 尾 偏 斜 。 

图 2-6c 是 一 个 对 称 的 直方 图 。 在 对 称 的 直方 图 中 ， 左 尾 和 右 昆 的 形状 相同 。 在 应 用 中 得 到 数据 的 直方 图 
永远 不 会 完全 对 称 ， 但 许多 应 用 中 的 直方 图 可 能 大 致 对 称 。SAT 分 数 、 人 的 身高 和 体重 等 数据 得 到 的 直方 图 是 
大 致 对 称 的 。 图 2-6d 显示 直方 图 严重 右 偏 。 这 个 直方 图 是 根据 一 家 妇女 服饰 店 一 整 天 的 销售 量 数据 绘制 出 来 
的 。 在 商务 与 经 济 应 用 中 得 到 的 数据 ， 常 常 使 直方 图 右 偏 。 例 如 ， 房 屋 价格 、 工 资 、 销 售 量 等 数据 ， 常 常 导 致 
直方 图 右 偏 。 


2.2.5 累积 分 布 


对 频数 分 布 略 加 变化 ， 可 得 到 数值 型 数据 的 另 一 种 表格 汇总 方式 一 票 积 频数 分 布 cumulative frequeney dis- 
tribution) 。 累 积 频数 分 布 使 用 编制 频率 分 布 的 组 数 、 组 宽 和 组 限 。 但 是 ， 累 积 频数 分 布 表示 的 是 小 于 或 等 于 每 一 
组 上 组 限 的 数据 项 个 数 ， 而 不 是 表示 每 一 组 的 频数 。 表 2-7 前 两 列 给 出 了 审计 时 间 数 据 的 累积 频数 分 布 。 
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a) 适度 左 偏 b) 适度 有 偏 





c) 对 称 d) 严重 右 偏 
图 2-6 呈现 不 同 偏 度 水 平 的 直方 图 
表 2-7 审计 时 间 数 据 的 累积 频数 、 累 积 相 对 频数 和 累积 百分数 频数 分 布 


审计 时 间 (天 ) 累积 频数 票 积 相对 频数 了 票 积 百分数 频数 
小 于 或 等 于 14 4 0. 20 和 20 
小 于 或 等 于 19 12 0.60 60 
小 于 或 等 于 24 17 0. 85 85 
小 于 或 等 于 29 19 0, 95 95 
小 于 或 等 于 34 20 1. 00 100 


为 了 解释 累积 频数 是 如 何 确 定 的 ， 考虑 “小 于 或 等 于 24” 的 这 一 组 。 这 一 组 的 累积 频数 只 是 数据 中 小 于 或 等 
于 24 的 所 有 组 的 频数 之 和 。 对 表 2-5 中 的 频数 分 布 而 言 , 组 10 ~ 14，15 ~19 和 20 ~24 的 频数 之 和 为 4+8+5 = 
17， 它 表明 有 17 个 数据 小 于 或 等 于 24。 因 此 ， 这 一 组 的 累积 频数 是 17。 男 外 ， 表 2-7 中 的 累积 频数 分 布 表 明 ， 
有 4 次 审计 在 14 天 内 完成 ， 有 19 次 审计 在 29 天 内 完成 。 

最 后 ， 我 们 注意 到 ， 累 积 相 对 频数 分 布 ( cumulative relative frequency distribution ) 和 累积 百分数 频数 分 布 
( cumulative percent frequency distribution) 分 别 表 示 数 据 值 小 于 或 等 于 每 一 组 上 组 限 的 数据 项 的 比例 和 百分数 。 我 
们 既 可 以 对 相对 频数 分 布 中 的 相对 频数 求 和 ， 也 可 以 用 累积 频数 除 以 数据 项 总 数 ， 来 计算 累积 相对 频数 分 布 。 用 
后 一 种 方法 ， 我们 将 表 2-7 中 第 2 列 的 累积 频数 除 以 数据 项 总 数 (n=20)， 可 得 到 第 3 列 的 累积 相对 频数 分 布 ， 
累积 百分数 频数 由 累积 相对 频数 乘 以 100 得 出 。 累 积 相 对 频数 和 累积 百分数 频数 分 布 显示 ， 有 0. 85 或 85% 的 审 
计 在 24 天 内 完成 ， 有 0.95 或 95% 的 审计 在 29 天 内 完成 ， 等 等 。 


2.2.6 荣 叶 显示 


茎 时 显示 (stem-and-leaf display) 是 同时 用 于 显示 数据 的 等 级 顺序 和 分 布 形状 的 图 形 显示 。 为 了 说 明 茎 叶 显 
示 的 使 用 ， 考 虑 表 2-8 中 的 数据 。 这 些 数 据 是 Haskens 制造 公司 最 近 对 50 名 应 聘 某 职位 的 人 提出 150 个 能 力 测验 
问题 进行 面试 时 ， 回 答 正确 的 问题 个 数 。 
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表 2-8 在 能 力 测验 中 回答 正确 的 问题 个 数 


112 72 69 97 107 
73 92 76 86 73 
126 128 118 127 124 
82 104 132 134 83 
92 108 96 100 92 
115 76 91 102 81 
95 141 81 80 106 
84 119 113 98 1 
68 98 115 106 95 
100 85 94 106 119 


为 了 绘制 莽 叶 显示 ， 我 们 首先 把 每 个 数据 值 的 高 位 数字 排 在 竖 线 左边 。 在 竖 线 右边 ， 我 们 记录 每 个 数据 值 的 
最 后 一 位 数字 。 根 据 表 2-8 中 的 第 一 行 数据 值 (112, 72，69，97 和 107) ， 绘 制 共 时 显示 的 前 5 个 数据 值 如 下 : 


6 9 
4 2 
8 
9 7 
10 7 
11 2 
12 
13 
14 


例如 ， 数 值 112 的 最 高 数字 11 在 竖 线 左边 ， 最 后 一 位 数字 2 在 竖 线 右边 。 类 似 地 ， 数 值 72 的 最 高 数字 7 在 
竖 线 左边 ， 最 后 一 位 数字 2 在 竖 线 右边 。 对 应 每 个 数据 值 的 最 高 数字 ,继续 把 它 的 最 后 一 位 数字 放置 在 竖 线 的 右 


6 9 8 
7 2 3 6 3 6 5 
8 6 2 3 ] 1 0 5 
9 + 2 2 6 2 1 5 8 8 5 4 
10 7 4 8 0 2 6 6 0 6 
11 2 8 5 9 3 5 9 
12 6 8 7 4 
2 4 
1 


这 样 组 织 数 据 后 ， 对 每 一 行 的 数字 排出 等 级 顺序 就 简单 了 。 排 序 后 的 荃 叶 显示 如 下 : 


6 8 9 
2 3 3 5 6 6 
8 0 1 1 2 3 4 5 6 
9 ] 2 2 2 下 » 5 6 7 8 8 
10 0 0 py 4 6 6 6 7 8 
11 2 3 5 5 8 9 9 
12 了 6 了 8 
2 4 
1 
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竖 线 左边 的 数字 (6, 区 5 8， 9; 10, iz 12, 3 和 14) 是 蔡 ， 竖 线 右边 的 每 个 数字 就 是 一 个 时。 例如 ， 考虑 
第 一 行 , 6 是 茎 的 值 ，8 和 9 是 两 个 叶 的 值 : 


6 |8 9 
它 表示 有 两 个 数据 值 的 首位 数字 是 6， 叶 表示 数据 值 是 68 和 69。 类 似 地 ， 第 二 行 是 
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它 表 示 有 6 个 数据 值 其 首位 数字 是 7， 叶 表示 数据 值 是 72, 73, 73, 75, 76 和 76。 
根据 茎 叶 显 示 ， 我 们 关注 所 显示 出 的 形状 。 让 我 们 用 一 个 长 方形 围 住 每 个 茎 的 叶 。 这 样 做 ,我们 得 到 下 图 : 





4 [| 


将 上 图 逆 时 针 方向 旋转 90"， 所 得 到 的 图 形 与 按 60 ~69，70 ~79，80 ~ 89 等 分 组 的 直方 图 非常 相似 。 

尽管 蔡 叶 显示 可 能 与 直方 图 提供 相同 的 信息 ， 但 它 还 有 以 下 两 个 主要 优点 : 

(1) 蔡 叶 显示 易于 用 手绘 制 。 

(2) 在 一 个 组 内 ， 由 于 荃 叶 显示 提供 了 实际 的 数据 值 ， 因 此 茎 叶 显 示 比 直方 图 提供 更 多 的 信息 。 

就 像 频数 分 布 或 直方 图 没有 绝对 的 组 数 一 样 ， 茎 叶 显 示 也 没有 绝对 的 行 数 或 茶 数 。 如 果 我 们 认为 初始 的 葵 叶 
显示 聚集 了 太 多 的 数据 ， 我 们 能 够 把 每 个 高 位 数字 拆 分 为 两 个 或 更 多 的 茎 ， 从 而 很 容易 扩展 这 个 显示 。 例 如 ， 对 
每 一 高 位 数字 使 用 两 个 茎 ,我 们 把 所 有 以 0，1 ，2，3 和 4 结尾 的 数据 放 在 一 行 ， 而 把 所 有 以 5, 6, 7, 8 和 9 结 
尾 的 数据 放 在 另 一 行 。 下 列 扩展 的 蔡 叶 显示 “演示 了 这 种 方法 。 


| 和光 
7 ;0 3 
: 5 ch a 

| 1 1 六 
ep 
9 1 村 1 太守 六 轩 位 半 
| -An 
,| 
GT 9 . 
3 
上 下 而 下 是 才 二 .i. 
到 
而 : 8 
Fw 


EN 
Ee 
pm 


日 在 扩展 的 茎 叶 显示 中 ， 每 当 葵 值 被 重复 两 次 时 ， 则 第 一 个 蔡 值 对 应 于 时 值 0 ~4， 第 二 个 茎 值 对 应 于 时 值 5 ~9。 


30 商务 与 经 济 统 计 


注意 ， 数值?2，73 和 73 的 叶 值 在 0~4 范围 内 ， 并 且 用 7 的 第 一 个 茎 值 来 显示 。 数 值 75， 76 和 76 的 叶 值 在 
5 ~9 范围 内 ， 用 7 的 第 二 个 蕉 值 来 显示 。 这 个 扩展 的 荃 叶 显示 与 间隔 为 65 ~69，70~74，75 ~79 等 的 频数 分 布 很 
相似 。 

前 面 的 例子 说 明了 三 位 数 数 据 的 荃 叶 显 示 。 对 于 超过 三 位 数 的 数据 ， 也 能 作出 荃 叶 显 示 。 例 如 ， 考 虑 下 列 数 
据 ， 它 们 是 一 个 快餐 店 15 个 周 的 汉堡 包 的 销售 数量 。 


1565 1852 1644 1766 1888 1912 2044 1812 
1790 1679 2008 1852 1967 1954 1733 
这 些 数据 的 荃 叶 显示 如 下 : 
叶 单 位 =10 


6 
4 
17 3 
] 
1 
0 


2 A I 
tn 
o0 


注意 ， 这 里 用 一 个 单一 数字 来 表示 每 一 个 叶 值 ， 并 且 每 个 数据 值 只 用 前 三 位 数字 来 绘制 蕉 叶 显 示 。 在 葵 叶 显 
示 的 顶部 ， 我 们 规定 了 叶 单位 为 10。 为 了 说 明 如 何 解释 蔡 叶 显示 中 的 数值 ， 考 虑 第 一 个 葵 值 153， 以 及 它 的 叶 值 
6。 把 它们 连 起 来 ， 我 们 得 到 数 1356。 要 得 到 原始 观察 值 的 一 个 近似 值 ， 我 们 需要 把 它 乘 以 叶 单 位 的 值 10。 因 此 ， 
156 x 10 =1 560 就 是 用 来 绘制 葵 叶 显示 的 原始 数据 值 的 近似 值 。 虽 然 从 荃 叶 显 示 中 得 出 精确 数据 值 是 不 可 能 的 ， 
但 是 根据 每 个 叶 值 使 用 一 位 数 表 示 的 惯例 ” ， 可 以 保证 我 们 对 位 数 较 多 的 数据 也 能 绘制 出 荃 叶 显 示 。 对 于 没有 给 
出 叶 单 位 的 荃 叶 显 示 ， 我 们 就 假设 它 等 于 1。 

注释 和 评论 

1. 条 形 图 和 直方 图 本 质 上 是 同一 事物 ， 它 们 都 是 频数 分 布 数据 的 图 形 表 示 。 直 方 图 是 各 纵 条 之 间 没 有 间隔 的 
条 形 图 。 有 些 离散 的 数量 型 数据 ， 各 纵 条 之 间 有 间 取 是 合 志 的。 例如， 考虑 大 学 中 注册 学 生 的 班级 数 ， 这 
些 数据 只 能 取 整 数 ， 像 1.5 和 2.73 等 的 中 间 值 是 不 可 能 存在 的 。 对 于 连续 的 数量 型 数据 ， 如 表 2-4 的 审计 
时 间 ， 各 纵 条 之 间 的 间隔 是 不 合适 的 。 

2. 对 于 数量 型 数据 ， 适 当 的 组 限 依赖 于 数据 的 精度 水 平 。 例 如 ， 对 表 2-4 中 的 审计 时 间 数 据 ， 我 们 取 整 数值 
为 组 限 。 如 果 数 据 近似 到 最 接近 的 1X10 天 (如 12.3，14.4 等 )， 那 么 组 限 将 以 1/10 天 表示 。 例如， 第 一 
组 将 会 设 为 10. 0 ~14.9。 如 果 数 据 近 似 到 最 接近 的 1/100 天 (如 12.34，14.45 等 )， 那 么 组 限 将 以 1/100 
天 表示 。 例 如 ， 第 一 组 将 会 设 为 10. 00 ~ 14.99。 

3. 开口 组 是 指 只 有 一 个 下 组 限 或 上 组 限 的 组 。 例 如 ， 在 表 2-4 中 的 审计 时 间 数 据 中 ,假设 有 两 次 审计 时 间 分 
别 为 58 天 和 65 天 ， 我 们 将 不 再 继续 以 5 为 组 宽 ， 将 组 延伸 到 35 ~39，40 ~44,，45 ~49 等 ， 而 是 以 一 个 开 
口 组 “35 或 35 以 上 ”来 简化 频数 分 布 ， 这 一 组 的 频数 为 2。 开 口 组 经 常 出 现在 分 布 的 最 上 端 ， 有 时 开口 
组 也 出 现在 分 布 的 最 下 端 ， 偶 尔 也 在 两 端 出 现 。 

4. 累积 频数 分 布 的 最 后 一 个 数据 项 总 等 于 观测 值 的 总 数 。 累 积 相 对 频数 分 布 的 最 后 一 个 数据 项 总 等 于 1. 00， 
累积 百分数 频数 分 布 的 最 后 一 个 数据 项 总 等 于 100。 


名 ”在 茎 叶 显示 中 使 用 一 个 单一 数字 来 表示 每 个 叶 。 叶 单位 是 为 了 得 到 原始 数据 的 近似 值 ， 而 在 蔗 叶 显示 中 应 该 乘 以 的 数值 。 叶 单位 可 
以 是 100，10，1，0.1 等 s 








编制 累积 频数 分 布 和 累积 相对 频数 分 布 。 
14. 考虑 下 列 数 据 ; 


2 133 Wl 0 12:;2 
Sh FS Ts TZ 49 75 OD 60 B58 115 


a. 绘制 打点 图 。 
b. 编制 频数 分 布 。 
c. 编制 百分数 频数 分 布 。 


16. 绘制 下 列 数据 的 茎 时 显 示 ， 叶 单位 为 10。 


1161 1206 14 1300 1604 1725 1361 1322 
1221 1378: 623 1426 . 1557 “1730 1706 L689 
应 用 
18. 投考 者 的 不 足 需 要 学 区 支付 较 高 的 薪水 和 额外 的 
补助 以 级 引 和 灸 住 学 区 的 负责 人 人。 纽约 州 大 罗 切 斯 
特地 区 20 个 学 区 负责 人 的 基本 年 薪 数据 (单位 : 
1 000 美 元 ) 如 下 所 示 (The Rochester Democrat and 
Chronicle ，2008 年 2 月 10 日 )。 
187 184 174 185 
175 172 202 197 
165 208 215 164 
162 172 182 156 
172 175 170 183 
下 面 按 150 ~159，160 ~169 等 分 组 。 
a 编制 频数 分 布 。 
b. 编制 百分数 频数 分 布 。 
c， 编制 累积 百分数 频数 分 布 。 
d. 绘制 基本 年 新 的 直方 图 。 
e. 数据 是 否 呈 现 偏 斜 ? 请 解释 。 
f. 基本 年 薪 超 过 200 000 美元 的 负责 人 占有 多 大 比例 ? 
20. 伦敦 经 济 学 院 和 哈佛 商学 院 进行 了 一 项 关于 首席 执 


行 官 如 何 度 过 他 们 的 一 天 的 研究 。 研 究 发 现 首席 执 
行 官 每 周 在 会 议 上 大 约 平均 花 18 个 小 时 ， 其 中 不 包 
括 电 话 会 议 、 商 务 会 餐 和 公众 活动 (《 人 华尔街 日 
报 》，2012 年 2 月 14 日 )。 下 表 是 25 和 位 首席 执行 官 


22. 
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每 周 花 在 会 议 上 的 时 间 的 样本 数据 (单位: 小 时 )。 


14 15 18 23 15 

1 20 13 15 23 
23 21 15 20 21 
16 15 18 18 19 
19 22 23 21 12 


a. 每 周 花 在 会 议 上 的 时 间 的 最 小 值 和 最 大 值 分 别 
是 多 少 ? 

b. 以 2 小 时 为 组 宽 ， 编 制 这 些 数据 的 频数 分 布 和 
百分数 频数 分 布 。 

c. 绘制 直方 图 ， 并 评价 分 布 的 形态 。 

《企业 家 》 杂志 利用 诸如 增长 率 、 场 所 数量 、 启 动 

资金 和 财政 稳定 等 工作 指标 对 特许 加 盟 商 评定 等 

级 。 美 国 特 许 加 盟 商 20 强 的 场所 数量 如 下 表 所 示 。 


特许 加 盟 商 美国 的 场所 数量 
Hampton Inns 1 864 
ampm 2183 
麦当劳 32 805 
7-Eleven 公司 37 496 
Supercuts 2 13 
Days Inn 1 877 
Vanguard Cleaning System 2155 
Serpro 1 $522 
Subway 34 .871 
Denny's 公司 1 668 
Jan- Pro Franchising Intl 公司 12 394 
Hardee’s 1 901 
Pizza Hut 公司 13 281 
Kumon Math & Reading Centers 25 199 
Dunkin's Donuts 9947 
肯德基 公司 16 224 
Jazzercise 公司 7.683 
Anytime Fitness ] 618 
Matco Tools 1 431 
Stratus Building Solutions 5018 


下 面 按 0~4999, 5000~9999，10000 -14999 及 

以 上 分 组 ， 并 回答 下 列 问 题 。 

a 编制 这 些 顶 级 特许 加 盟 商 美国 的 场所 数量 的 频 
数 分 布 和 百分数 频数 分 布 。 

b. 绘制 这 些 数据 的 直方 图 。 

c. 评价 分 布 的 形态 。 


《财经 杂志 》 列 出 了 工作 的 最 住 职 业 机 会 是 令 人 愉 


快 、 薪 金 满意 以 及 迄今 为 止 在 此 工作 10 年 之 久 
(《 财 经 杂志 》，2009 年 11 月 )。 下 面 是 拥有 2~7 
年 工作 经 验 的 20 个 最 佳 职业 机 会 ， 其 员工 薪金 的 
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中 位 数 收 入 和 最 高 收入 数据 (单位: 1000 美元 )。 对 中 位 数 收入 和 最 高 收入 编制 茎 叶 显 示 ， 评 价 这 
些 职业 的 收入 状况 。 

26. 2011 年 辛辛那提 Flying Pig 半 程 马拉松 (13.1 英 
里 ) 有 10 897 名 参赛 者 完成 了 比赛 (Cineinnati 
Flying Pig Marathon website) 。40 名 半 程 马拉松 参赛 
者 的 年 龄 数据 如 下 表 所 示 。 


名 


辐 ” 





© 


2.3 用 表格 方式 汇总 两 个 变量 的 数据 


本 章 目 前 为 止 ， 我 们 已 集中 讨论 了 利用 表格 法 和 图 形 法 对 一 个 分 类 或 数量 变量 的 数据 进行 汇总 。 管 理 人 员 和 
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40 
57 


,绘制 扩展 的 茎 叶 显 示 。 
. 哪个 年 龄 组 的 参赛 者 最 多 ? 
.哪个 年 龄 出 现 的 次 数 最 多 ? 


决策 者 往往 需要 汇总 两 个 变量 的 数据 ， 以 揭示 变量 间 关 系 。 本 节 ， 我 们 介绍 如 何 编制 两 个 变量 数据 的 表格 汇总 。 


2. 3. 1 ”交叉 分 组 表 


交叉 分 组 表 (crosstabulation) 是 一 种 汇总 两 个 变量 数据 的 方法 。 虽 然 两 个 变量 可 以 是 分 类 的 或 数量 的 ， 但 一 
个 变量 是 分 类 的 而 另 一 个 变量 是 数量 的 交叉 分 组 表 最 为 常见 。 通 过 考虑 根据 下 面 《Zagat 饭店 评论 》 ( Zagat’s Res- 
taurant Review) 数据 的 应 用 ,我 们 来 说 明 后 一 种 情形 的 交叉 分 组 表 。 由 位 于 洛杉矶 地 区 的 300 家 饭店 组 成 一 个 样 
本 ， 搜 集 它 们 的 质量 等 级 和 代表 性 餐 价 数据 。 表 2-9 给 出 了 前 10 家 饭店 的 数据 。 质 量 等 级 是 一 个 分 类 变量 ， 等 级 


类 别 有 好 、 很 好 和 优秀 ; 餐 价 是 一 个 数量 变量 ， 变 化 范围 从 10 ~ 49 美元 。 


这 一 应 用 的 数据 交叉 分 组 表 如 表 2-10 所 示 。 左 边栏 和 顶部 边栏 
的 标记 确定 了 两 个 变量 的 组 别 。 左 边栏 的 标记 (好 、 很 好 和 优秀 ) 
对 应 着 质量 等 级 变量 的 三 个 组 。 顶 部 边栏 的 列 标记 (10 ~ 19 美元 ， 
20 ~29 美元 , 30 ~39 美元 和 40 ~ 49 美元 ) 对 应 着 餐 价 变量 的 四 个 
组 。 引 样本 中 的 每 个 饭店 都 给 出 了 质量 等 级 和 餐 价 。 因 此 ， 样 本 中 
的 每 个 饭店 都 与 交叉 分 组 表 中 的 某 一 列 和 某 一 行 的 交叉 单元 相 联 
系 。 例 如 ， 饭 店 5 被 认定 为 质量 等 级 为 很 好 ，33 美元 的 餐 价 。 它 属 
于 表 2-10 中 第 2 行 和 第 3 列 的 单元 。 在 编制 交叉 分 组 表 时 ， 我 们 只 
需 简单 地 计算 出 属于 交叉 分 组 表 每 个 单元 的 饭店 数 。 

虽然 在 表 2-10 中 ,和 餐 价 变量 使 用 四 个 组 来 编制 交叉 分 组 表 ， 但 
是 对 于 餐 价 变 量 可 以 使 用 更 少 或 更 多 的 组 ， 来 构建 质量 等 级 和 和 餐 价 


ba Ay a Gh dN GY hy A 


日 ”在 编制 交 丸 分 组 表 时 ， 对 数量 变量 进行 分 组 可 使 我 们 将 数量 变量 看 成 一 个 分 类 变量 。 


质量 等 级 
好 


表 2-9 300 家 洛杉矶 饭店 的 质量 等 级 和 餐 价 
饭店 


餐 价 (美元 ) 
* Pe 
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的 交叉 分 组 表 。 涉 及 在 交叉 分 组 表 中 如 何 对 数量 变量 的 数据 进行 分 组 的 问题 ， 与 利用 数量 变量 来 编制 频数 分 布 时 
确定 组 数 的 问题 相 类 似 。 对 于 这 个 应 用 ， 餐 价 变量 的 四 个 组 被 认为 是 揭示 质量 等 级 和 和 餐 价 之 间 关 系 的 合理 组 数 。 

观察 表 2-10 ， 我 们 看 到 ， 样 本 中 质量 等 级 为 很 好 上 且 和 餐 价 在 20 ~ 29 美元 的 饭店 最 多 (64) 。 质 量 等 级 为 优秀 且 
餐 价 在 10 ~ 19 美元 的 饭店 只 有 两 家 。 其 他 频数 也 可 以 进行 类 似 的 解释 。 另 外 ， 我 们 注意 到 交叉 分 组 表 的 右边 和 最 
后 一 行 分 别 给 出 了 质量 等 级 和 餐 价 的 频数 分 布 。 从 右边 的 频数 分 布 中 我 们 看 到 ， 质 量 等 级 为 好 的 饭店 有 84 家 ， 
很 好 的 饭店 有 150 家 和 优秀 的 饭店 66 家 。 类 似 地 ， 最 后 一 行 是 餐 价 变量 的 频数 分 布 。 


表 2-10 300 家 洛杉矶 饭店 的 质量 等 级 和 和 餐 价 数据 的 交叉 分 组 表 


质量 等 级 餐 价 (美元) 
10 ~19 20 ~29 30 ~39 40 ~49 总 计 
好 42 40 2 0 84 
很 好 34 64 46 6 150 
优秀 2 14 28 22 66 
总 计 78 118 76 28 300 


用 交叉 分 组 表 右 边栏 的 行 总 计数 除 以 饭店 总 数 300， 可 以 得 到 质量 等 级 变量 的 相对 频数 和 百分数 频数 分 布 。 


质量 等 级 相对 频数 百分数 频数 
好 0.28 28 
很 好 0.50 50 
优秀 0.22 22 
总 计 1.00 100 


从 百分数 频数 分 布 ， 我们 看 到 有 28% 的 饭店 的 质量 等 级 是 好 ， 有 50% 的 质量 等 级 是 很 好 ， 有 22% 的 质量 等 
级 是 优秀 。 
用 交叉 分 组 表 最 后 一 行 的 列 总 计数 除 以 饭店 的 总 数 300， 可 以 得 到 和 餐 价 变量 的 相对 频数 和 百分数 频数 分 布 。 


餐 价 〔 美 元 ) 相对 频数 百分数 频数 
10 ~19 0. 26 26 
20 ~29 0. 39 39 
30 ~39 0. 25 25 
40 ~49 0.09 9 
总 计 1,00 100 


注意 ， 由 于 数值 经 过 四 舍 五 人 后 求 和 ， 因 此 列 的 相对 频数 值 之 和 不 一 定 精确 地 等 于 1. 00， 而 且 百 分 数 频 数 分 
布 值 之 和 不 一 定 精 确 等 于 100。 从 百分数 频数 分 布 我 们 看 到 ， 有 26% 的 饭店 餐 价 在 最 低 价 格 组 (10 ~ 19 美元 ) ， 
有 39% 饭 店 的 餐 价 在 次 低 价格 组 ， 等 等 。 

从 交叉 分 组 表 边 栏 得 到 的 频数 分 布 和 相对 频数 分 布 ， 可 以 提供 每 一 个 变量 单独 的 信息 ， 但 它们 不 能 提供 变量 
间 关 系 的 任何 信息 。 交 又 分 组 表 的 主要 价值 在 于 提供 了 变量 间 关 系 的 深刻 含义 。 再 次 查看 表 2-10 的 交叉 分 组 表 ， 
揭示 出 较 高 的 餐 价 与 较 高 的 质量 等 级 相 联系 ， 而 较 低 的 餐 价 对 应 于 较 低 的 质量 等 级 。 

把 交叉 分 组 表 中 的 项 目 转换 成 行 百分数 或 列 百分数 ， 对 变量 间 关 系 提 供 了 更 深入 的 了 解 。 对 行 百分数 ， 表 2- 
10 中 的 每 个 频数 除 以 对 应 的 行 总 计数 ， 所 得 的 结果 显示 在 表 2-11 中 。 表 2-11 中 的 每 一 行 是 同一 质量 等 级 的 餐 价 
的 百分数 频数 分 布 。 对 于 质量 等 级 最 低 (好 ) 的 饭店 ， 我 们 看 到 最 大 的 百分数 是 较 便宜 的 饭店 (50% 的 饭店 餐 价 
是 10 ~ 19 美元 ,47.6% 的 饭店 餐 价 是 20 ~ 29 美元 ) 。 对 于 质量 等 级 最 高 (优秀 ) 的 饭店 ,我 们 看 到 最 大 的 百 分 
数 是 较 晶 贵 的 饭店 (42.4% 的 饭店 餐 价 是 30 ~ 39 美元 ，33. 4% 的 饭店 餐 价 是 40 ~49 美元 ) 。 因 此 ， 我 们 继续 看 到 
较 晶 贵 的 餐 价 与 较 高 质量 等 级 的 饭店 相 联 系 。 

交叉 分 组 表 被 广泛 地 用 于 考察 两 个 变量 间 的 关系 。 在 实践 中 ， 许 多 统计 研究 的 最 终 报 告 包括 大 量 的 交叉 分 组 
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表 。 在 洛杉矶 饭店 调查 中 ， 交 叉 分 组 表 是 基于 一 个 分 类 变量 (质量 等 级 ) 和 一 个 数量 变量 ( 餐 价 ) 编制 的 。 当 两 
个 变量 都 是 分 类 变量 或 数量 变量 时 ， 也 可 以 编制 交叉 分 组 表 。 然 而 ， 当 使 用 数量 变量 时 ， 我 们 首先 必须 对 变量 值 
划分 组 别 。 例 如 ， 在 饭店 这 个 例子 中 ， 我们 将 餐 价 划分 为 四 个 组 (10 ~ 19 美元 ，20 = 29 美元 ，30 ~ 39 美元 和 
40 ~49 美元 )。 
表 2-11 每 一 个 质量 等 级 类 的 行 百分比 
餐 价 (美元 ) 


2. 3. 2 ”六 普 和 森 悖 论 


我 们 常常 合并 或 综合 两 个 或 以 上 的 交叉 分 组 表 中 的 数据 ， 生 成 一 个 汇总 的 交叉 分 组 表 ， 以 显示 两 个 变量 的 相 
关 性 。 在 这 种 情形 下 ， 从 两 个 或 多 个 单独 的 交叉 分 组 表 得 到 的 结论 与 一 个 综合 的 交叉 分 组 表 数 据 得 到 的 结论 可 能 
截然 相反 。 依 据 综合 和 未 综合 数据 得 到 的 相反 的 结论 被 称 为 辛普森 悖 论 (Simpson's paradox)。 为 了 说 明 辛普森 性 
论 ， 我 们 考虑 一 个 分 析 两 位 法 官 在 两 个 不 同 的 法 庭 上 判决 的 例子 。 

在 过 去 的 三 年 中 ， 法 官 罗 恩 ' 勒 基 特 和 丹尼斯 肯 德 尔 在 民事 庭 和 市 政 庭 主 持 审理 案件 ， 他 们 判决 的 部 分 案 
件 被 提出 上 诉 。 上 诉 法 庭 对 大 多 数 上 诉 案件 维持 原来 的 判决 ,但 也 有 部 分 判决 被 推翻 。 以 两 个 变量 : 判决 〈 维 持 
或 推翻 ) 和 法 庭 类 型 (民事 庭 或 市 政 庭 ) 为 依据 ， 对 每 位 法 官 构建 交叉 分 组 表 。 然 后 ， 假 设 通过 综合 法 庭 类 型 数 
据 将 两 个 交叉 分 组 表 合并 。 综 合 后 的 交叉 分 组 表 包 含 两 个 变量 : 判决 〈 维 持 或 推翻 ) 和 法 官 ( 勒 基 特 或 肯 德 尔 ) 。 
这 个 交叉 分 组 表 给 出 了 两 位 法 官 的 上 诉 案件 被 判决 维持 或 推翻 的 数量 。 在 下 面 的 交叉 分 组 表 中 给 出 了 这 些 结果 ， 
括号 中 的 数 是 其 旁边 数值 的 列 百分数 。 


二 
维持 129 (86% ) 110 (88% ) 239 
推翻 21 (14% ) 15 (12% ) 36 
总 计 (%) 2 


观察 列 百分数 ， 我 们 看 到 法 官 勒 基 特 有 86% 的 判决 维持 原来 的 判决 ， 法 官 肯 德尔 有 88% 的 判决 维持 原来 的 判 
决 。 从 这 个 综合 交叉 分 组 表 ， 我 们 可 以 认为 法 官 肯 德 尔 做 得 比较 好 ， 因 为 他 的 判决 上 诉 后 维持 原来 判决 的 比例 比 
较 高 。 但 是 ， 问 题 随 之 出 现 。 

下 面 未 综合 的 交叉 分 组 表 是 勒 基 特 和 肯 德 尔 在 两 类 法 庭审 理 的 案件 ， 插 号 中 的 数 是 其 旁边 数值 的 列 百分数 。 











法 官 勒 基 特 
eid z 民事 许 市 政府 
维持 29 (91% ) 100 (85% ) 129 
推翻 18 (15% ) 21 
总 计 “(%%) (100% 150, 
判决 总 计 
维持 90 (90% ) ”20 (80% ) 110 
推翻 10 (10%) 5 (20% ) 15 
计 (%) 区 


从 勤 基 特 的 交叉 分 组 表 和 列 百分数 ， 我 们 看 到 他 在 民事 庭审 理 的 案件 中 有 91% 上 诉 案件 维持 原来 的 判决 ， 在 
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市 政 庭 审理 的 案件 中 有 85% 维持 原来 的 判决 。 从 肯 德 尔 的 交叉 分 组 表 和 列 百 分 数 ， 我 们 看 到 他 在 民事 庭审 理 的 案 
件 中 有 90% 上 诉 案 件 维持 原来 的 判决 ， 在 市 政 庭审 理 的 案件 中 有 80% 维持 原来 的 判决 。 因 此 ， 当 我 们 未 综合 数据 
时 ， 我 们 看 到 法 官 勤 基 特有 更 好 的 记录 ， 因 为 法 官 勒 基 特 的 判决 在 两 个 法 庭 中 维持 原来 的 判决 的 比例 更 高 。 这 个 
结果 与 我 们 综合 两 个 法 庭 数据 得 到 的 结论 相 矛 盾 。 在 最 初 的 交叉 分 组 表 中 ， 表明 法 官 肖 盘 录 有 殉 好 胸 记 串 。 -依据 
综合 和 未 综合 数据 得 到 的 相反 的 结论 说 明了 辛普森 悖 论 。 

最 初 的 交叉 分 组 表 是 综合 两 个 法 庭 分 开 的 交叉 分 组 表 中 的 数据 得 到 的 。 注 意 ， 对 两 位 法 官 来 说 ， 上 诉 案件 被 
推翻 的 比例 在 市 政 庭 比 民事 庭 要 高 。 因 为 法 官 勒 基 特 审理 的 案件 大 多 数 在 市 政 庭 ， 因 此 综合 后 的 数据 偏 癌 于 法 官 
肯 德 尔 。 可 是 ， 当 我 们 观察 两 个 法 庭 单独 的 交叉 分 组 表 时 ， 清 楚 地 显示 了 法 官 勒 基 特 有 较 好 的 记录 。 因 此 ， 对 最 
初 的 综合 交叉 分 组 表 ， 我 们 看 到 法 庭 类 型 是 一 个 隐藏 的 变量 ， 当 评价 两 位 法 官 的 记录 时 ， 它 是 不 可 忽视 的 变量 。 

由 于 辛普森 悖 论 的 可 能 性 ， 应 该 认识 到 根据 未 综合 还 是 综合 交叉 分 组 表 数 据 得 出 的 结论 或 解释 有 可 能 截然 相 
反 。 在 得 出 结论 之 前 ， 你 应 该 审查 交叉 分 组 表 是 综合 形式 还 是 未 综合 形式 ， 以 便 提 出 较 好 的 见解 和 结论 。 特 别 
地 ， 当 交叉 分 组 表 包括 综合 数据 时 ， 你 应 该 审查 是 否 存在 可 能 影响 结论 的 隐藏 变量 ， 使 得 分 开 的 或 未 综合 交叉 分 
组 表 提 供 不 同 的 、 可 能 更 好 的 见解 和 绪论 。 





二 者 有 何 区 别 ? 

c、 比 较 家 庭 收 入 在 “25 以 下 ”、“100 及 以 上 ”和 
“总 计 ” 的 百分数 频数 分 布 。 评 价 家 庭 收 入 和 家 
长 的 教育 水 平 之 间 的 关系 。 

32. 表 2-12 是 一 个 由 45 只 共同 基金 的 信息 组 成 的 数据 
集 ， 它 们 是 2008 年 的 晨星 基金 500 的 一 部 分 ， 数 
据 集 中 包含 下 列 5 个 变量 : 
基金 类 型 : 标记 为 DE (国内 股本 )、 还 (国际 股 
本 ) 各 (固定 收益 ) 
资产 净值 (美元 ) : 每 份 的 收盘 价 
S 年 的 平均 回报 率 (%): 基金 过 去 5 年 的 平均 年 





WS BO YO OR py Ky ll 





一 


回报 率 
a. 以 % 为 行 变 量 ，y 为 列 变量 ， 编 制 数据 的 交叉 分 
组 表 。 对 xy， 使 用 10 ~29，3 ~49 等 分 组 ， 对 7， 每 财政 年 度 扣 除 的 基金 费用 占 资产 的 


使 用 40 ~59， 60 ~79 等 分 组 。 
六 展 星 评级 ; 每 只 基金 风险 调整 星 级 ， 展 星星 级 从 最 


b. 1 了 百分数 。 
低 的 1 星 级 到 最 高 的 5 星 级 
d. 如 果 x 和 Y 之 间 存 在 相关 关系 的 话 ， 将 会 是 什 了 
编制 数据 的 交叉 分 组 表 ，5 年 的 平均 回报 率 
么 类 型 的 关系 ? 
(%) 按 0~9.99, 10 ~29.99 30 ~ 39.99， 
应 用 40 ~49. 99 和 50 ~59.99 分 组 。 
30. 再 次 参考 第 29 题 的 家 庭 收 入 和 教育 水 平 的 交叉 分 b. 编制 基金 类 型 数据 的 频数 分 布 。 
组 表 。 c. 编制 5 年 的 平均 回报 率 (%) 数据 的 频数 分 布 。 
a 计算 列 百 分 数 ， 并 指出 百分数 频数 分 布 。 家 长 d. 交叉 分 组 表 是 如 何 有 助 于 编制 (b) 和 (c) 的 
高 中 未 毕业 的 比例 是 多 少 ? 频数 分 布 的 ? 
b. 家庭 收入 在 100 000 美元 及 以 上 ， 家 长 有 学 士 以 e， 关于 基金 类 型 和 过 去 5 年 的 平均 回报 率 ， 你 能 得 出 
上 学 历 的 比例 是 多 少 ? 家 长 有 学 士 以 上 学 历 ， 什么 结论 ? 


家 庭 收 入 在 100 000 美元 及 以 上 的 比例 是 多 少 ? 
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表 2-12 45 只 共同 基金 样本 的 财务 数据 


基金 名 称 基金 类 型 ” 净 资 产值 (美元 ) 5 年 的 平均 回报 率 (名 ) 费用 率 (%) 晨星 评级 
Amer Cent Inc & Growth Inv DE 28, 88 12. 39 0. 67 2 星 
American Century IntL Dise IE 14. 37 30. 53 1. 41 3 是 
American Century Tax-Free Bond FT 979 3. 34 0. 49 4 是 
American Century Ultra DE 24.94 10. 88 0.99 3 星 
Ariel DE 46. 39 11.32 1.03 2 星 
Artisan Intl Val IE 25 52 24.95 和 好 3 星 
Artisan Small Cap DE 16. 92 15. 67 1.18 3 星 
Baron Asset DE 50, 67 16.77 1.31 5 星 
Brandywine DE 36. 58 18. 14 1.08 4 星 
Brown Cap Small | DE 35.73 ; 15, 85 1 20 4 星 
Buffalo Mid Cap DE 15. 29 17. 25 1. 02 3 星 
Delafield DE 24. 32 P7277 Ey 4 星 
DFA 如, S Micro Cap DE 13. 47 17.23 0.53 3 星 
Dodge & Cox Ineome FT 这 后 :| 4.31 0. 44 4 星 
Fairholme DE 31. 86 18. 23 1. 00 $ 
Fidelity Contrafund DE 73hl 17.99 0. 89 5 是 
Fidelity Municipal Income a 12, 58 4.41 0. 45 5 星 
Fidelity Overseas IE 48. 39 23, 46 0. 90 4 星 
Fidelity Sel Electronics DE 45. 60 13. 50 0. 89 3 星 
Fidelity Sh-Term Bond FI 8. 60 2.76 0. 45 3 星 
Fidelity DE 39. 85 14. 40 0, 56 4 星 
FPA New Income a 10. 95 4.63 0. 62 3 星 
Gabelli Asset AAA DE 49. 81 16.70 1. 36 4 星 
Greenspring DE 23, 59 12. 46 1. 07 3 星 
Janus DE 32, 26 12..81 0. 90 3 星 
Janus Worldwide Ih $4. 83 12..31 0. 86 2 是 
Kalmar Gr Val Sm Cp DE 45: 30 1$..31 1 32 3 星 
Managers Freemont Bond FI 10. $56 5. 14 0. 60 5 星 
Marsico 21st Century DE 17.44 15, 16 1, 31 5 星 
Mathews Pacific Tiger 下 27. 86 32. 70 1 6 3 星 
Meridan Value DE 31. 92 15. 33 1 08 4 星 
Oakmark I DE 40, 37 9, $51 1. 05 2 星 
PIMCO Emerg Mkts Bd D ET 10, 68 13. 57 25 3 星 
RS Value A DE 26. 27 23.68 1. 36 4 星 
T. Rowe Price Latin Am. EE 53, 89 51. 10 1. 24 4 星 
T. Rowe Price Mid Val DE 22. 46 16. 91 0. 80 4 是 
Templeton Growth A IE 24, 07 15.91 1. 01 3 星 
Thomburg Value A DE ML 39 15. 46 1.27 4 星 
USAA Income FI 12. 10 4. 31 0.62 3 星 
Vanguard Equity-Inc DE 24. 42 13. 41 0..29 4 星 
Vanguard Global Equity EE 0 21.77 0.64 5 星 
Vanguard GNMA FI 10. 37 4.25 0., 21 5 星 
Vanguard Sht- Tm TE FI 15. 68 213F 0. 16 3 星 
Vanguard Sm Cp ldx DE 32. 58 17.01 0. 23 3 是 
Wasatch Sm Cp Growth DE 35,41 13..98 1, 19 4 星 
34. 参见 表 2-12 中 的 数据 。 点 ，10 为 组 距 分 组 。 
a. 以 5 年 的 平均 回报 率 ( 铝 ) 为 行 , 资产 净值 为 b. 如 果 变 量 间 存在 关系 ， 对 它们 之 间 的 关系 进行 
列 ， 编 制 数据 的 交叉 分 组 表 。5 年 的 平均 回报 率 评价 。 


以 0 为 起 点 ,5 为 组 距 分 组 ; 资产 净值 以 0 为 起 
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2.4 用 图 形 显示 方式 汇总 两 个 变量 的 数据 


在 上 一 节 ， 我们 介绍 了 如 何 使 用 交叉 分 组 表 汇 总 两 个 变量 的 数据 ， 并 解释 变量 间 的 关系 。 在 更 多 的 情形 中 ， 
图 形 显示 对 识别 数据 的 模式 和 趋势 更 有 效 。 

本 节 ， 我 们 介绍 探索 两 个 变量 间 关 系 的 各 种 图 形 显 示 。 用 创造 性 的 方法 显示 数据 可 以 产生 强大 的 洞察 力 ， 并 
使 我 们 将 依据 “常识 推理 ” 变 成 直观 的 比较 、 对 比 ， 并 识别 模式 。 我 们 从 散 点 图 和 趋势 线 的 讨论 开始 。 


2.4.1 散 点 图 和 趋势 线 


散 点 图 (scatter diagram) 是 对 两 个 数量 变量 间 关 系 的 图 形 表述 ， 趋 势 线 (trendline) 是 显示 相关 性 近似 程度 
的 一 条 直线 。 作 为 一 个 实例 ， 考 虑 旧金山 一 个 音像 设备 商店 的 广告 次 数 与 销售 额 之 间 的 关系 。 该 商店 在 过 去 的 三 
个 月 内 有 10 次 利用 周末 电视 广告 来 促销 。 管 理 人 员 想 证 实 广告 播 出 次 数 和 下 一 周 商店 销售 额 之 间 是 否 有 关系 。 
在 表 2-14 中 给 出 了 10 周 销售 额 的 样本 数据 (单位 ，100 美元 ) 。 

图 2-7 是 表 2-14 中 数据 的 散 点 图 和 趋势 线 。 广 告 次 数 (x) 显示 在 横 轴 上 ， 销 售 额 (y) 显示 在 纵 轴 上 。 对 
第 一 周 ,x =2 和 7y =50， 在 散 点 图 上 按 这 两 个 坐标 画 出 该 点 。 用 相同 的 方法 画册 其 他 9 周 的 点 。 注 意 ， 有 了 两 周 做 
了 一 次 广告 ， 有 两 周 做 了 两 次 广告 ， 依 此 类 推 。 


表 2-14 音像 设备 商店 的 样本 数据 





周 广告 次 数 x 销售 额 (100 美 元 ) y 

1 2 50 由 

2 5 57 

3 1 41 

4 3 54 本 

5 4 54 捧 

6 1 38 

7 5 63 

8 3 48 0 1 2 3 5 
9 4 59 广告 次 数 
10 2 46 


图 2-7 音像 设备 商店 的 散 点 图 和 趋势 线 


绘制 好 的 散 点 图 ( 见 图 2-7) 表明 ， 广 告 次 数 和 销售 额 之 间 存 在 正 相 关 关 系 。 较 高 的 销售 额 与 较 高 的 广告 次 
数 相 联系 。 因 为 所 有 的 点 并 不 在 一 条 直线 上 ， 所 以 这 种 关系 是 不 完全 的 。 然 而 ， 这 些 点 的 分 布 模式 和 趋势 线 表 
明 ， 整体 关系 是 正 相关 的 。 

在 图 2-8 中 给 出 了 一 些 一 般 的 散 点 图 模式 和 它们 所 显示 的 关系 类 型 。 左 图 描绘 了 正 相 关 关 系 ， 与 广告 次 数 和 
销售 额 例 子 相似 ; 而 在 中 间 的 图 中 ， 散 点 图 显示 变量 间 没 有 明显 的 关系 ; 在 右 图 中 ， 显 示 了 负 相 关 关 系 ， 即 随 着 
x 增加 ，y 趋 于 减少 。 





没有 明显 相关 x 
图 2-8 散 点 图 显示 出 的 关系 类 型 


日 趋势 线 方 程 是 y=36:15+4.95x。 趋 势 线 的 斜率 是 4.95，y 轴 截 距 (趋势 线 与 y 轴 的 交点 ) 是 36. 15。 在 第 14 章 学 习 简 单线 性 回归 
时 ， 我 们 将 详细 讨论 线性 趋势 线 的 斜率 和 轴 截 距 。 
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2. 4. 2 ”复合 条 形 图 和 结构 条 形 图 


在 第 2.1 节 ， 我们 提 到 条 形 图 是 描绘 已 汇总 的 分 类 型 数据 频数 分 布 、 相 对 频数 分 布 或 百分数 频数 分 布 的 图 形 
显示 。 复 合 条 形 图 和 结构 条 形 图 是 基本 条 形 图 的 扩展 ， 其 用 于 显示 和 比较 两 个 变量 。 将 两 个 变量 显示 在 同一 张 图 
上 ,我 们 可 以 更 好 地 了 解 变量 间 的 关系 。 

复合 条 形 图 (side-by-side bar chart) 是 对 已 汇总 的 多 个 条 形 图 同时 显示 的 一 种 图 形 显示 方式 。 为 了 说 明 复 合 
条 形 图 的 绘制 ， 回 忆 位 于 洛杉矶 地 区 的 300 家 饭店 组 成 的 一 个 样本 ， 其 质量 等 级 和 餐 价 数据 的 应 用 。 质 量 等 级 是 
一 个 分 类 变量 ， 等 级 类 别 有 好 、 很 好 和 优秀 ; 餐 价 是 一 个 数量 变量 ， 变 化 范围 从 10 ~49 美元 。 如 表 2-10 所 示 的 
交叉 分 组 表 表 明 餐 价 数据 被 分 成 四 个 组 ; 10 ~ 19 美元 、20 ~29 美元 、30 ~ 39 美元 和 40 ~49 美元 。 我 们 将 利用 这 
些 组 来 绘制 复合 条 形 图 。 

图 2-9 是 饭店 数据 的 复合 条 形 图 。 每 一 个 长 条 的 灰 度 70 
指明 质量 等 级 。 在 横 轴 上 将 每 一 个 长 条 高 度 延 伸 ， 到 达 每 6 
一 个 餐 价 类 别 产 生 的 质量 等 级 的 频数 点 上 。 每 一 个 餐 价 类 0 


别 的 质量 等 级 的 频数 彼此 相 邻 ， 使 我 们 迅速 确定 如 何 评价 营 匀 | 
一 个 特殊 的 餐 价 类 别 。 我 们 看 到 最 低 餐 价 类 别 (10 ~19 美 优秀 






ee, 
0~39 


元 ) 大 部 分 得 到 好 和 很 好 等 级 ， 只 有 少数 是 优秀 等 级 。 但 
是 ， 最 高 餐 价 类 别 (40 ~49 美元 ) 却 显示 出 很 大 的 不 同 。 
这 个 餐 价 类 别 大 部 分 得 到 优秀 等 级 ， 有 一 些 是 很 好 等 级 ， 人 
但 没有 好 等 级 。 本 

图 2-9 还 给 出 了 餐 价 和 质量 等 级 之 间 关 系 的 很 好 含义 。 et 
注意 ， 随 着 餐 价 的 增加 (从 左 到 右 ) ,“ 好 ”这 一 长 条 的 高 度 在 减少 ， 而 “优秀 ”这 一 长 条 的 高 度 在 增加 。 这 表 
明 随 着 价格 的 增加 ， 质 量 等 级 趋向 于 更 好 。 正 如 期 望 的 那样 ， 很 好 等 级 在 中 间 价格 类 别 更 为 突出 ， 因 为 条 形 图 中 
间 的 “很 好 ”这 一 长 条 处 于 主导 地 位 。 

结构 条 形 图 是 同时 显示 和 比较 两 个 变量 的 另 一 种 显示 方式 。 结 梅 条 形 图 (stacked chart) 是 一 种 条 形 图 ， 其 每 
一 个 长 条 被 分 解 成 不 同 颜色 的 矩形 段 ， 与 饼 形 图 类 似 的 方式 显示 每 二 组 的 相对 频数 。 为 了 说 明 结构 条 形 图 ,我 们 
将 使 用 质量 等 级 和 餐 价 数据 汇总 的 交叉 分 组 表 ， 如 表 2-10 所 示 。 

我 们 将 表 2-10 中 的 某 一 列 的 每 一 个 元 素 除 以 该 列 的 总 计数 ， 可 以 将 频数 数据 转化 为 列 百分比 。 例 如 ， 在 78 
家 餐 价 在 10 ~19 美元 的 饭店 中 ， 有 和 2 家 饭店 具有 好 的 质量 等 级 。 换 名 话说 ，78 家 饭店 中 有 (42/78) x 100 或 
53.8% 具有 好 的 等 级 。 表 2-15 给 出 了 每 一 个 餐 价 类 别 的 列 百分比 。 利 用 表 2-15 中 的 数据 ， 我 们 绘制 结构 条 形 图 ， 
如 图 2-10 所 示 。 由 于 结构 条 形 图 以 百分比 为 依据 ， 因 此 图 2-10 鞭 至 比 图 2.9 更 清楚 地 显示 变量 间 的 关系 。 当 我 们 
从 最 低 价格 组 (10 ~ 19 美元 ) 到 最 高 价格 组 (40 ~ 49 美元 ) 移动 时 , “好 ”长 条 的 高 度 在 减少 ， 而 “优秀 ”长 
条 的 长 度 在 增加 。 
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表 2-15 每 一 个 餐 价 类 别 的 列 百分比 (%) 80% 
本 70% 
i 餐 价 (美元 ) i a 优秀 
10 ~19 20 329 30 ~39 40 -49 50% 下 很 好 
40% 下 好 
好 53.8 33.9 2.6 0.0 30% 
20% 
很 好 43.6 54.2 60.5 21.4 10% ER 
0 呈 “| ®| i | 
优秀 2.3 11.9 36.8 78. 6 六 20 一 29 30~39 40~49 
餐 价 ($) 
总 计 100.0 100.0 100.0 100.0 


2-10 ”质量 等 级 和 和 餐 价 数据 的 结构 条 形 图 
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注释 和 评论 

1. 时 间 序 列 是 一 个 变量 在 连续 时 点 或 连续 时 期 上 测量 的 观测 值 的 序列 。 以 横 轴 表示 时 间 值 ， 纵 轴 表 示 时 间 序 
列 值 的 散 志 图 ， 在 时 间 序 列 分 析 中 称 为 时 间 序 列 图 。 我 们 将 在 第 17 章 讨论 时 间 序 列 图 ， 以 及 如 何 分 析 时 
间 序 列 数据 。 

2. 结构 条 形 图 也 可 以 用 频 教 而 不 是 百分数 频数 来 显示 。 在 这 种 情形 种 ， 每 个 长 条 的 不 同 颜色 段 得 到 长 条 的 整 
体 总 数 ， 而 不 是 整体 百分数 。 





人 


方法 美国 51 个 主要 城市 的 年 平均 最 高 气温 、 最 低 气 温 
女 36. 下 列 是 两 个 数量 变量 和 的 20 次 观测 结果 。 i 二 
数据 存在 光盘 中 名 为 Snow 的 文件 里 。 例 如 ， 俄 亦 
俄 州 哥伦布 市 的 平均 最 低 气 温 是 44 度 ， 年 平均 降 
雪 量 为 27,5 英寸 。 
a 以 年 平均 最 低 气 温 为 横 轴 ,年 平均 降雪 量 为 纵 
轴 ， 绘 制 散 点 图 。 
b. 这 两 个 变量 之 间 存 在 关系 吗 ? 
c. 以 散 志 图 为 依据 ， 对 看 似 不 寻常 的 数据 点 进行 
评价 。 
42. 智能 手机 是 集 互 联网 、 照 相 、 音 乐 和 视频 功能 于 一 
体 的 先进 手机 ( The Pew Research Center，Internet 
入 American Life Project，2011 年 )。 下 面 的 调查 结 
果 显 示 了 智能 手机 拥有 者 的 年 龄 。 








Ep 
[= 


aa 绘制 出 x 和 y 之 间 的 关系 的 散 点 图 。 
b. 如 果 x 和 7 之 间 有 明显 的 关系 ， 将 会 是 什么 类 


型 的 关系 ? 

38. 下 面 是 由 两 个 分 类 变量 x 和 7Yy 的 数据 汇总 的 交叉 分 年 齿 组 智能 手机 其 他 手机 没有 手机 
组 表 ， 变 量 % 取 值 低 \、 中 或 高 ， 第 二 介 变 量 y 取 值 RE 
是 或 否 。 18 ~24 49 46 5 

25 - 34 $58 35 7 
35 ~44 44 45 11 
45 ~54 28 58 14 
55 ~65 22 59 19 
65 十 11 45 44 





a. 以 变量 年 龄 组 为 横 轴 ， 绘 制 结构 条 形 图 ， 以 显 


a. 计算 行 百 分 数 。 示 上 述 调查 数据 的 手机 拥有 者 的 类 型 。 

b. 以 x 为 横 轴 ， 绘 制 百 分 数 频 数 的 结构 条 形 图 。 b. 评论 年 龄 和 智能 手机 拥有 者 之 间 的 关系 。 
应 用 ce. 如 果 到 了 2021 年 ， 你 期 待 这 个 调查 的 结果 有 怎 
40. 基于 1981 ~2010 年 的 数据 ， 目 前 结果 网 站 列 出 了 样 的 不 同 ? 


2.5 数据 可 视 化 : 创建 有 效 图 形 显 示 的 最 佳 实践 


数据 可 视 化 是 用 于 描述 汇总 和 表述 一 个 数据 集 信息 图 形 显示 的 术语 。 数 据 可 视 化 的 目的 是 尽 可 能 有 效 和 清晰 
地 传递 数据 的 重要 信息 。 本 节 ， 我们 给 出 创建 有 效 图 形 显示 的 指导 准则 ， 讨论 如 何 根据 研究 的 目的 选择 恰当 的 显 
示 类 型 ， 说 明 数 据 仪 表 板 的 用 途 ， 以 及 展示 辛辛那提 动 植物 园 如 何 利用 数据 仪表 板 技术 改进 决策 。 
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2. 5. 1 创建 有 效 的 图 形 显示 


表 2-16 中 的 数据 给 出 了 Gustin 化 学 公司 去 年 在 美国 销售 地 区 的 预测 或 计划 销售 额 (单位 : 1 000 美元 ) 和 实 
际 销售 额 〈 单 位 : 1 000 美元 ) 。 注 意 ， 有 两 个 数量 变量 (计划 销售 额 和 实际 销售 额 ) 和 一 个 分 类 变量 (销售 地 
区 )。 假设 我 们 想 建 立 一 个 能 使 Gustin 化 学 公司 管理 层 视觉 化 了 解 每 个 销售 地 区 相对 于 计划 销售 额 以 及 所 有 销售 
地 区 的 销售 业绩 的 图 形 显示 。 

图 2-11 是 计划 销售 额 与 实际 销售 额 数据 的 复合 条 形 图 。 注 表 2-16 各 销售 地 区 的 计划 和 实际 销售 额 


意 ， 这 张 条 形 图 多 么 容易 比较 一 个 地 区 以 及 所 有 地 区 的 计划 与 实 。 一 计划 销售 祯 。。 实际 销售 额 
际 销售 额 。 这 个 图 形 显 示 很 简单 ， 包 含 一 个 标题 (也 是 标记 ) 以 (1 000 美元 ) (1 000 美元 ) 
及 用 不 同 颜色 代表 的 两 类 销售 额 。 注 意 ， 纵 轴 的 尺度 从 0 开始 。 东北 540 447 
四 个 销售 地 区 分 隔 开 ， 以 表明 它们 是 不 同 的 ， 而 为 了 便于 每 个 地 西北 420 447 
区 内 的 比较 ， 计 划 和 实际 销售 额 并 列 。 在 图 2-11 的 复合 条 形 图 东南 Ss 4 
中 ， 很 容易 看 出 西南 地 区 的 计划 和 实际 销售 额 都 是 最 低 的， 西北 - < 
地 区 实际 销售 额 略 高 于 计划 销售 额 。 
创建 有 效 的 图 形 最 示 是 科学 也 是 艺术 。 遵 循 如 下 的 一 般 性 WN 
准则 ,可 以 增强 你 的 显示 有 效 地 表述 数据 中 重要 信息 的 可 7% 
能 性 。 600 
。 给 予 图 形 显示 一 个 清晰 、 简 明 的 标题 。 a 
。 使 图 形 显示 保持 简洁 ， 当 能 用 二 维 表示 时 不 要 用 三 维 34%[ | 
表 趟 。 坚 300| 1 a 计划 
。 每 个 坐标 畏 有 清楚 的 标记 ， 并 给 出 测量 的 单位 。 和 200[| = 实际 





如 果 使 用 颜色 来 区 分 类 别 ， 训 确保 颜色 是 不 同 的 。 “fr 
。 如 果 使 用 允 种 颜色 或 线 型 ， 用 图 例 来 标明 时 ， 要 将 图 例 。。”“， 未 北 地 区 西北 地 区 东南 地 区 两 南 地 区 
靠近 所 表示 的 数据 。 地 区 


2. 5.2 选择 图 形 显示 的 类 型 

本 章 我 们 讨论 了 各 种 图 形 显示 ， 包 插 条 形 图 、 人 饼 形 图 、 打 点 
图 、 直 方 图 、 荃 叶 显示 、 散 点 图 、 复 合 条 形 图 和 结构 条 形 图 。 为 了 某 种 目的 而 绘制 这 些 显示 类 型 中 的 一 种 。 为 了 
给 出 选择 合适 的 图 形 显 示 类 型 的 指导 准则 ， 现 在 我 们 给 出 了 根据 目的 分 类 的 图 形 显示 类 型 的 汇总 。 我 们 注意 到 有 
些 图 形 显示 类 型 可 有 效 地 用 于 多 个 目的 。 

用 于 展示 数据 分 布 的 图 形 显示 

。 条 形 图 用 于 展示 分 类 型 数据 的 频数 分 布 和 相对 频数 分 布 

。 人 饼 形 图 用 于 展示 分 类 型 数据 的 相对 频数 分 布 和 百分数 频数 分 布 

。 打点 图 用 于 展示 数值 型 数据 在 整个 数据 范围 内 的 分 布 

。 直方 图 用 于 展示 数值 型 数据 在 一 个 区 间 组 集合 上 的 频数 分 布 

。 茎 叶 显示 “用 于 展示 数值 型 数据 的 等 级 顺序 和 分 布 形态 

用 于 进行 比较 的 图 形 显 示 

。 复合 条 形 图 用 于 两 个 变量 的 比较 

。 结构 条 形 图 用 于 比较 两 个 分 类 变量 的 相对 频数 和 百分数 频数 

用 于 展示 相关 关系 的 图 形 显示 

。 散 点 图 用 于 展示 两 个 数量 变量 的 相关 关系 

。 趋势 线 用 于 近似 散 点 图 中 数据 的 相关 关系 


图 2-11 计划 和 实际 销售 额 的 复合 条 形 图 
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数据 可 视 化 工具 使 用 最 广泛 的 一 种 是 数据 仪表 板 ”( data dashboard) 。 如 果 你 驾驶 一 辆 汽车 ， 你 已 经 熟悉 数据 
仪表 板 的 概念 。 在 一 辆 汽车 中 ， 汽 车 仪表 板 包括 提供 重要 信息 的 测量 仪表 和 其 他 直观 显示 ， 这 些 重要 信息 对 驾驶 
一 辆 汽车 非常 重要 。 例 如 ， 用 于 显示 和 车速、 燃油 油 量 、 发 动机 温度 和 机 油 油 量 的 仪表 是 确保 安全 和 有 效 驾 驶 汽车 
的 关键 。 在 一 些 新 款 汽 车 中 ， 为 了 给 司机 提供 更 有 效 的 显示 ， 这 个 信息 甚至 直观 地 显示 在 挡 风 玻璃 上 。 对 制定 管 
理 决 策 ， 数 据 仪表 板 扮 演 着 相似 的 角色 。 

数据 仪表 板 是 一 个 直观 显示 的 集合 ， 这 个 直观 显示 用 易于 阅读 、 了 解 和 解释 的 方式 组 织 和 表述 用 于 监控 公司 
或 机 构 业 绩 的 信息 。 就 像 车 速 、 燃 油 油 量 、 发 动机 温度 和 机 油 油 量 是 监控 汽车 的 重要 信息 一 样 ， 每 一 种 行业 有 和 需 
要 监控 评估 公司 业绩 状况 的 关键 表现 指标 (KPIs)“。 库 存 存 货 、 日 销售 额 、 准 时 交 货 的 比例 和 每 季度 销售 收入 
都 是 KPIs 的 例子 。 数 据 仪 表 板 应 及 时 提供 KPBS 的 (从 各 种 可 能 来 源 ) 汇总 信息 ， 这 对 使 用 者 很 重要 ， 而 且 应 该 
做 ， 以 某 种 方式 告诉 它 的 使 用 者 胜 于 控制 它 的 使 用 者 。 

为 了 说 明 在 决策 中 数据 仪表 板 的 使 用 ， 我 们 将 讨论 Grogan 石油 公司 的 一 个 应 用 。Grogan 石油 公司 在 得 克 萨 斯 
州 的 奥斯汀 (其 总 部 所 在 )、 休 斯 敦 和 达拉斯 这 三 个 城市 设 有 办 事 处 。Grogan 石油 公司 位 于 奥斯汀 办 事 处 的 信息 
技术 呼叫 中 必 处 理 员 工 关于 软件 、 互 联网 和 电子 邮件 问题 等 与 计算 机 相关 问题 的 呼叫 。 例 如 ， 如 果 一 名 在 达拉斯 
的 Grogan 石油 公司 员工 有 计算 机 软件 问题 ， 则 这 名 员工 可 以 联络 信息 技术 呼叫 中 心 申请 援助 。 

绘制 监控 呼叫 中 心 表 现 的 数据 仪表 板 如 图 2-12 所 示 。 数 据 仪表 板结 合 几 种 显示 来 监控 呼叫 申 心 的 KPB， 展 示 的 是 
从 上 午 8 点 开始 的 当前 班次 数据 。 左 上 角 的 结构 条 形 图 展示 之 前 每 一 类 问题 (软件 、 互 联网 和 电子 邮件 ) 的 呼叫 次 数 。 
条 形 图 说 明 本 班次 最 初 的 几 个 小 时 内 呼叫 次 数 比 较 多 ， 关 于 电子 邮件 问题 的 呼叫 次 数 随时 间 推 移 呈 现 递减 趋势 ， 关 于 软 
件 问 题 的 呼叫 次 数 在 10 点 最 多 。 仪 表 板 右上 角 的 饼 形 图 显示 呼叫 中 心 员 工 在 每 一 类 问题 或 没有 呼叫 工作 (空闲) 所 用 
时 间 的 比例 。 这 些 图 对 确定 最 佳人 员 配 置 水 平 都 是 重要 显示 。 例如， 以 空闲 时 间 的 比例 作为 度量 ， 了 解 呼叫 成 分 比例 和 
强调 系统 状况 如 何 ， 可 以 帮助 信息 技术 经 理 确信 有 足够 的 有 专业 技能 的 呼叫 中 心 员工 可 供 使 用 。 

饼 形 图 下 面 的 复合 条 形 图 展示 了 Cimogan 石油 公司 每 一 个 办 事 处 的 每 一 类 问题 的 呼叫 次 数 。 这 使 得 信息 技术 经 
理 通 过 位 置 迅速 识别 是 否 存在 某 种 特殊 类 型 的 问题 。 例 如 ， 图 上 显示 出 奥斯汀 办 事 处 在 电子 邮件 问题 上 有 相对 高 
的 数量 。 如 果 这 些 问题 的 原因 能 很 快 被 识别 出 来 ， 则 大 多 数 问题 可 能 很 快 就 被 解决 。 同 时 ， 我 们 注意 到 ， 软 件 问 
题 相对 高 的 数量 来 自 达拉斯 办 事 处 。 这 里 较 高 的 呼叫 次 数 仅 仅 是 由 于 达拉斯 办 事 处 刚刚 安装 了 新 软件 ， 导 致 对 信 
息 技术 中 心 的 唾 叫 较 多 。 由 于 上 周 达拉斯 办 事 处 已 将 此 事 提醒 信息 技术 经 理 ， 信 息 技术 经 理 知道 来 自 达 拉 斯 办 事 
处 的 呼叫 次 数 将 会 增加 ， 可 以 增加 人 员 配 置 水 平 以 应 对 预期 的 呼叫 次 数 的 增加 。 

对 每 一 个 超过 15 ,分钟 之 前 收 到 的 未 被 解决 的 案例 ， 数 据 仪表 板 中 间 左 侧 的 条 形 图 展示 了 这 些 未 被 解决 的 案 
例 中 每 一 企 的 时 间 长 度 。 条 形 图 使 得 Grogan 石油 公司 迅速 监控 主要 问题 案例 并 决定 是 否 需要 额外 资源 来 解决 它 
们 。 最 差 的 案例 T57 已 超过 300 分 钟 未 被 解决 ， 它 实际 上 是 从 上 一 个 班次 遗留 下 来 的 。 最 后 ， 在 底部 的 直方 图 展 
示 了 当前 班次 所 有 被 解决 的 案例 所 用 时 间 的 分 布 。 

Grogan 石油 公司 的 数据 仪表 板 说 明了 正在 运行 水 平 中 仪表 板 的 使 用 。 数 据 仪表 板 实时 更 新 ， 用 于 如 人 员 配 置 
水 平 的 运行 决策 。 数 据 仪表 板 也 可 用 于 战术 和 战略 水 平 管理 。 例 如 ， 一 位 物流 经 理 为 了 其 第 三 方 运输 的 实时 性 能 
和 成 本 而 监控 KPIs， 这 有 助 于 如 运输 方式 和 运输 工具 的 选择 等 战术 决策 。 在 最 高 水 平 ， 更 具 战 略 性 的 数据 仪表 板 
将 使 上 级 管理 部 门 通过 监控 更 加 综合 的 财务 、 服 务 水 平和 利用 信息 能 力 ， 迅 速 评估 公司 的 财务 状况 。 

前 面 讨论 的 好 的 数据 可 视 化 准则 适用 于 数据 仪表 板 中 单个 图 ， 也 适用 于 整个 仪表 板 。 除 了 这 些 准 则 之 外 ， 重 
要 的 是 最 大 限度 地 减少 屏幕 滚 过 的 需要 、 避 免 不 必要 的 颜色 使 用 和 三 维 显 示 ， 以 及 图 与 图 之 间 使 用 边框 以 提高 可 
读 性 。 作 为 单独 的 图 ， 简 单 的 永远 是 最 好 的 。 


加 ”数据 仪表 板 也 称 为 数字 仪表 板 。 
怠 ”关键 表现 指标 有 时 也 称 为 关键 表现 测度 (KPMs) 。 
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图 2-12 ”Grogan 石油 公司 信息 技术 呼叫 中 心 的 数据 仪表 板 


2. 5.4 ”实践 中 的 数据 可 视 化 : 辛辛那提 动 植物 园 - 

位 于 辛辛那提 市 俄 交 俄 的 辛辛那提 动 植物 园 是 世界 上 第 二 古老 的 动物 园 。 为 了 通过 更 多 的 数据 驱动 提高 决 
策 ， 管 理 者 决定 需要 整合 他 们 各 个 方面 的 业务 ， 并 规定 非 技 术 经 理 和 主管 用 直观 的 方式 更 好 地 了 解 他 们 的 数据 。 
一 个 复杂 的 因素 是 当时 动物 园 很 忙 ， 管 理 者 期 望 与 游客 现场 互动 、 检 查 运 营 、 预 计 正在 出 现 或 即将 发 生 的 问题 。 
因此 ， 在 实时 基础 上 ， 能 监控 发 生 的 情况 是 决定 做 什么 的 关键 因素 。 动 物 园 的 管理 者 得 出 处 理 这 类 问题 需要 数据 
可 视 化 战略 的 结论 。 

由 于 具有 使 用 方便 、 实 时 更 新 能 力 和 iPad 兼容 性 ， 辛 辛 那 提 动 植物 园 决定 利用 人 BM Cognos 的 先进 数据 可 视 化 
软件 来 实行 数据 可 视 化 战略 。 利 用 这 个 软件 ,辛辛那提 动 植物 园 开发 了 如 图 2-13 所 示 的 数据 仪表 板 ， 它 能 使 动物 
园 的 管理 者 追踪 下 面 的 关键 表现 指标 : 

。 项 目 分 析 《〈 动 物 园 内 各 处 的 销售 量 和 销售 额 ) 

Geo 分 解 (利用 游客 每 日 在 动物 园 各 处 所 用 时 间 的 分 布 图 及 显示 ) 
顾客 支出 

收银 员 销 售 业 绩 

销售 额 和 参观 者 资料 与 天 气 模式 

动物 园 忠 诚 奖励 计划 的 业绩 


昌 ”作者 感谢 提供 了 本 应 用 的 辛辛那提 动 植物 园 的 John Lucas。 
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图 2-13 ”辛辛那提 动 植物 园 的 数据 仪表 板 


还 开发 的 iPad 移动 应 用 能 使 动物 园 的 管理 者 走 到 户外 ， 在 实时 基础 上 仍然 看 到 和 预计 到 发 生 的 情况 。 辛 辛 那 
提 动 物 园 的 让 ad 版 数据 仪表 板 如 图 2-14 所 示 ， 它 可 使 管理 者 获取 如 下 信息 ， 

。 实时 的 参观 者 资料 ， 包 括 游览 动物 园 的 游客 “类 型 ” 

。 展示 动物 园 内 项 目 销售 预测 结果 的 实时 分 析 

e 动物 园 游客 所 在 位 置 的 实时 分 布 表 示 

获取 如 图 2-13 和 图 2-14 所 示 的 数据 ， 可 使 动物 园 的 管理 者 在 动物 园 肉 大 员 配 置 水 平方 面 、 在 天 气 和 其 他 条 
件 基 础 上 需要 储备 的 项 目 方面 、 在 区 域 大 口 统计 基础 上 如 何 更 好 地 实现 其 广告 目标 方面 作出 更 好 的 决策 。 

数据 可 视 化 的 作用 给 动物 园 带 来 了 显著 的 效果 。 在 使 用 的 第 一 年 ， 系 统 直接 负责 的 收入 增长 超过 500 000 美 
元 ,增加 了 动物 园 的 游客 人 数 ， 提 高 了 顾客 的 服务 水 平和 节约 了 成 本 。 


注释 和 评论 

1. 大 多 数 软 件 舌 用 于 数据 可 视 化 。 其 中 较为 流行 的 软件 包 是 Cognos，JMP，Spotfire 和 Tableau。 

2. 雷达 图 和 气泡 图 是 显示 多 个 变量 间 关 系 的 另外 两 种 常用 图 形 。 但 是 ,许多 数据 可 视 化 专家 建议 不 要 使 用 这 
些 图 ， 原 因 是 它们 过 于 复杂 。 建 议 使 用 如 条 形 图 和 散 点 图 这 些 较 为 简单 的 显示 图 。 

3. 地 理 数据 可 和 袖 化 的 非常 强大 工具 是 地 理 信 息 系 统 (GIS)。GIS 在 地 图 上 使 用 颜色 、 符 号 和 标题 来 帮助 我 们 了 
解 变量 的 地 理 分 布 。 例 如 ， 公 司 对 设法 确定 新 分 布 中 心 位 置 感 兴趣 ， 希 望 这 个 新 分 布 中 心 能 更 好 地 了 解 公司 
产品 需求 量 在 全 美的 变动 情况 。 可 以 使 用 GIS 在 地 图 上 用 红色 区 域 表 示 高 需求 、 蓝 色 区 域 表 示 低 需求 ， 没 有 
颜色 的 区 域 表 示 未 销售 产品 地 区 。 越 靠近 红色 高 需求 地 区 的 位 置 越 可 能 是 下 一 步 考 虑 好 的 候选 地 点 。 
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图 2-14 辛辛那提 动 植物 园 iPad 版 的 数据 仪表 板 






对 于 一 个 数据 集 ， 即 使 它 的 规模 适中 ， 对 其 原始 
形式 直接 解释 往往 是 困难 的 。 表 格 法 和 图 形 法 提供 了 
组 织 和 汇总 数据 的 方法 ,使 人 们 能 够 揭示 出 涩 据 的 特 
征 模式 ， 并 能 更 容易 地 解释 数据 。 频 数 分 布 、 相 对 频 
数 分 布 、 百 分 数 频 数 分布 、 条 形 图 以 及 饼 形 图 是 用 表 
格 和 图 形 汇总 分 类 型 数据 的 方法 。 频 数 分布 、 相 对 频 
数 分 布 、 百 分 数 频数 分 布 、 直 方 图 、 累 积 频数 分 布 、 
累积 相对 频数 分 布 、 暴 积 百分数 频数 分 布 和 茎 时 显示 
是 汇总 数量 型 数据 的 方法 。 

交叉 分 组 表 是 用 表格 汇总 两 个 变量 数据 的 方法 。 
散 点 图 是 显示 两 个 数量 变量 之 间 关 系 的 图 形 方 法 。 我 
们 还 展示 了 可 以 用 于 显示 和 比较 两 个 分 类 变量 的 复合 
条 形 图 和 结构 条 形 图 ， 它 们 只 是 基本 条 形 图 的 扩展 。 
我 们 还 讨论 了 创建 有 效 图 形 显示 的 准则 和 和 如何 选择 最 
适合 的 显示 类 型 。 介 绍 了 数据 仪表 板 ， 说 明 如 何 构 建 
一 个 用 易于 阅读 、 了 解 和 解释 的 方式 组 织 和 表述 用 于 
监控 公司 或 机 构 业 绩 的 直观 显示 集合 。 图 2-15 是 本 章 
介绍 的 表格 法 和 图 示 法 的 总 结 。 
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对 于 大 型 的 数据 集 ， 在 进行 数据 的 表格 和 图 形 汇 
总 时 需要 计算 机 软件 包 的 帮助 。 在 本 章 末 尾 的 附录 中 ， 
我 们 将 说 明 如 何 使 用 Minitab、Excel 和 StatTools 来 达到 
这 一 目 的 0 





对 频数 

¥ 图 “ 果 秩 闫 妆 分 各 

` 铺 构 条 形 图 。 早 积 相对 频数 分 布 

* 累积 百分数 频数 分 布 
,交叉 分 组 表 


图 2-15 汇总 数据 的 表格 法 和 图 形 法 





关键 术语 

categorical data 分 类 型 数据 ”用 来 识别 相似 项 目 类 
型 的 标记 或 名 称 。 

quantitative data 数量 型 数据 表示 大 小 或 多 少 的 
数值 。 


data visualization ”数据 可 视 化 “用 于 描述 汇总 和 表述 
一 个 数据 集 信息 的 图 形 显 示 的 效用 的 术语 。 

frequency distribution ”频数 分 布 “一 种 数据 的 表格 汇 
总 方法 ， 表 示 在 几 个 互 不 重合 组 别 中 ,每 一 组 数据 
值 的 个 数 (频数 )。 

relative frequency distribution 相对 频数 分 布 ”一 种 数 
据 的 表格 汇总 方法 ， 表 示 在 几 个 互 无 重合 组 别 中 ， 
每 一 组 数据 值 个 数 的 分 数 或 所 占 比 例 。 

percent frequency distribution ”百分数 频数 分 布 一 
种 数据 的 表格 汇总 方法 ， 表 示 在 几 个 互 不 重 看 组 别 
中 ,每 一 组 数据 值 个 数 所 占 的 百分数 。 ; 

bar graph ”条 形 图 一 种 图 形 方 法 ， 用 来 描述 已 被 汇 
总 成 频数 分 布 、 相 对 频数 分 布 或 百分数 频数 分 布 的 
分 类 型 数据 。 

pie graph _ 饼 形 图 ”一 种 汇 总 数据 的 图 形 ， 该 方法 的 
依据 是 把 一 个 圆 细 分 为 若干 个 扇形 ， 使 得 每 一 组 的 
相对 频数 与 一 个 遍 形 相对 应 。 

class midpoint 组 中 值 下 组 限 和 上 组 限 的 中 间 值 。 

dot plot 打点 图 用 横 轴 上 每 个 数值 上 方 的 点 的 个 数 
来 汇总 数据 的 一 种 图 形 方 法 。 

histogram 直方 图 一 种 描述 数量 型 数据 的 频数 分 


布 、 相 对 频数 分 布 或 百分数 频数 分 布 的 图 形 方法 ， 
组 宽 放 置 在 横 轴 上 ， 频 数 、 相 对 频数 或 百分数 频数 
放置 在 纵 轴 上 。 

cumulative frequency distribution ”累积 频数 分 布 一 





(2-1) 





44. 每 年 大 约 有 150 万 名 高 中 生 参 加 学 生 能 力 倾 向 测试 
(SAT) ， 近 80% 没 有 公开 招生 政策 的 学 院 和 大 学 ， 
在 作出 录取 决定 时 用 到 了 SAT 分 数 (College 
Board, 2009 年 3 月 )。 目 前 SAT 形式 有 三 部 分 : 
阅读 理解 、 数 学 和 写作 ，SAT 分 数 是 三 部 分 分 数 之 


绩 的 直观 显示 集合 。 
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种 数量 型 数据 的 表格 汇总 方式 ， 表 示 小 于 或 等 于 每 
一 组 上 组 限 的 数据 值 的 个 数 。 

cumulative relative frequency distribution 早 积 相对 频 
数 分 布 一 种 数量 型 数据 的 表格 汇总 方式 ， 表 示 小 
于 或 等 于 每 一 组 上 组 限 的 数据 值 的 分 数 或 比例 。 

cumulative percent frequency distribution “累积 百分数 
频数 分 布 一 种 数量 型 数据 的 表格 汇总 方式 ， 表 示 
小 于 或 等 于 每 一 组 上 组 限 的 数据 值 的 百分数 。 

stem-and-leaf display ” 茎 叶 显示 ”一 种 同时 用 于 展示 
数据 的 等 级 排序 和 分 布 形态 的 图 形 显 示 。 
crosstabulation ”交叉 分 组 表 一 种 对 两 个 变量 的 数据 
进行 的 表格 汇总 ， 其 中 一 个 变量 的 组 用 行 来 描述 ， 
另 一 个 变量 的 组 用 列 来 描述 。 

Simpson's paradox 辛普森 导论 从 两 个 或 两 个 以 上 
单独 的 交叉 分 组 表 得 到 的 结论 可 能 与 将 数据 综合 成 
一 个 单一 交叉 分 组 表 得 出 的 结论 截然 相反 。 

scatter diagram ” 散 点 图 两 个 数量 变量 之 间 关 系 的 
图 形 表 示 ， 其 中 一 个 变量 用 横 轴 表示 ， 另 一 个 变量 
用 纵 轴 素 示 。 

trendline 趋势 线 ”表示 两 个 变量 之 间 近 似 关 系 的 一 
条 直线 。 

side-by-side bar chart 复合 条 形 图 ”描绘 多 个 条 形 
间 时 显示 的 一 种 图 形 显示 方式 。 

stacked chart 结构 条 形 图 ”一 种 条 形 图 ， 其 每 一 个 
长 条 被 分 解 成 不 同 凑 色 的 矩形 段 ， 与 饼 形 图 类 似 的 
方式 显示 每 一 组 的 相对 频数 。 

data dashboard 数据 仪表 板 ”一 个 用 易于 阅读 、 了 
解 和 解释 的 方式 组 织 和 表述 用 于 监控 公司 或 机 构 业 


es 
# 
n J 

1 





近似 组 宽 


数据 最 大 值 - 数据 最 小 值 
组 数 


1 四 着 L [ 
四 EE 】 
-请 中 1 ， 


和 ， 满 分 是 2400 分 。 一 个 SAT 总 分 样本 如 下 : 


1 665 1 525 1 355 1 645 1 780 
1 275 2 135 1 280 1 060 1 585 
1 650 1 560 1 150 1 485 1 990 
1 590 1 880 1 420 1 755 1 375 
1475 1 680 1440 1 260 1 730 
1 490 1 560 940 ] 390 1 L275 


46 商务 与 经 济 统计 


a 编制 频数 分 布 和 绘制 直方 图 第 一 组 下 限 是 
800， 组 宽 是 200。 

b. 对 分 布 的 形态 进行 评价 。 

c. 基于 图 形 和 表格 汇总 ， 关 于 SAT 分 数 ， 还 能 得 
出 什么 观测 结果 ? 


46. 美国 各 州 的 人 口 数 据 如 下 单位: 100 万 人 ) 


(《 世 界 年 鉴 》，2012 年 )。 
州 。 | 人 口 数 | 州 | 人 口 数 | 州 | 人口 数 


俄 北 


州 ， 小 兰州 
阿 肯 马 萨 诸 宾 儿 法 
加 利 福 | 。 密 歌 多 得 
ess rs [or "| 
科 罗 拉 明 尼 苏 南 卡 来 | ，。 
多 州 达州 罗 纳 州 
| | a | 
格 州 比 州 他 州 ; 
I 
华 州 里 州 西 州 8 
佛 罗 里 蒙 大 ”得 克 萨 
达州 | | ay EE 
佐 治 内 布 拉 ; 
夏 威 内 华 | 。. 佛 蒙 
责 放 a Ee 
爱 达 新 罕 布 且 弗 吉 尼 | 。。 
荷 州 件 尔 州 亚 州 


| 


伊利 诺 新 泽 华 盛 | 6 

a er 

印第安 新 墨 西 a 

纳 州 哥 州 尼 亚 放 

艾 奥 ee 威 斯 康 

El dE 
北 卡 罗 怀 饭 

gs nimi 


堪 萨 
5 | | 
肯 塔 北 达 科 
Tl re 
a 以 5 (单位 : 100 万 人 ) 为 组 帘 ， 编 制 频 数 分 
布 、 百 分 数 频 数 分 布 和 绘制 直方 图 。 
b. 在 分 布 中 呈现 出 偏 态 吗 ? 请 解释 。 
c. 关于 50 个 州 的 人 口 ， 你 能 得 出 什么 观测 结果 ? 
. 商业 改进 局 经 常 收 到 消费 者 的 投诉 举报 5 在 2011 
年 ， 商 业 改 进 局 收 到 投诉 最 多 的 行业 是 银行 、 有 线 
和 卫星 电视 公司 、 收 俩 机构、 移动 电话 运营 商 和 新 


50. 


5 


车 经 销 店 。 一 个 200 次 投诉 的 样本 结果 存在 名 为 
BBB 的 文件 中 。 

a 展示 分 行业 的 投诉 频数 和 百分数 频数 。 

b. 绘制 百分数 分 布 的 条 形 图 。 

c， 哪个 行业 的 投诉 次 数 最 多 ? 

d. 对 投诉 的 百分数 频数 分 布 进行 评论 。 
《金融 时 报 》/ 哈 里 斯 民意 调查 中 的 一 个 问题 是 : 
“你 赞成 还 是 反对 对 矶 排放 较 高 的 汽车 征收 较 高 的 
税 ?” 可 能 的 回答 有 非常 赞成 、 赞 成 大 于 反对 、 反 
对 大 于 赞成 和 非常 反对 。 在 4 个 欧洲 国家 和 美国 调 
查 了 5372 个 成 年 人 ， 下面 是 他 们 回答 的 交叉 分 组 
表 (Harris Interactive website，2008 年 2 月 27 日 )。 


| ES 
英国 ”意大利 西班牙 ”德国 ”美国 












非常 赞成 
鞠 成 大 于 反对 








1087 1045 1109 1020 1020 





a. 编制 支持 水 平 变量 的 百分数 频数 分 布 。 你 是 否 
认为 : 民意 调查 的 结果 是 赞成 对 碳 排 放 较 高 的 
汽车 征收 较 高 的 税 ? 

b. 编制 国家 变量 的 百分数 频数 分 布 。 

c. 欧洲 国家 成 年 人 的 支持 水 平 是 否 显著 不 同 于 美 
国 成 年 人 的 支持 水 平 ? 请 解释 。 

辛辛那提 煤气 与 电力 公司 对 商业 建筑 进行 了 一 项 

调查 ， 询 问 使 用 的 主要 取暖 燃料 是 什么 ， 以 及 商业 

建筑 的 建设 年 份 。 得 到 的 部 分 结果 的 交叉 分 组 表 

如 下 。 






燃料 类 型 
电力 ”天然气 “石油 ”丙烷 其 他 





1973 年 及 以 前 
1974 ~ 1979 
1980 ~ 1986 
1987 ~ 1991 







a 通过 计算 行 总 计 和 列 总 计 完成 交 又 分 组 表 。 
b. 编制 建设 年 份 和 燃料 类 型 的 频数 分 布 。 

c. 编制 显示 列 百分数 的 交叉 分 组 表 。 

d. 编制 显示 行 百分数 的 交叉 分 组 表 。 

e. 对 建设 年 份 和 燃料 类 型 之 间 的 关系 进行 评论 。 


54. 参见 表 2-18 的 数据 集 。 
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a. 以 成 立 年 代为 行 变量 ， 毕 业 率 为 列 变 量 编 制 交 观 者 有 所 下 降 。 为 了 有 助 于 更 好 地 了 解 参 观 者 与 会 
叉 分 组 表 。 成 立 年 代 以 1600 为 起 点 ，2000 为 终 员 的 关系 ， 一 名 动物 园 的 员工 搜集 了 如 下 数据 。 
点 ，50 为 组 宽 进 行 分 组 ; 毕业 率 以 35% 为 起 点 ， 参观 者 
游客 类 别 
100% 为 终点 ， 5% 为 组 宽 进 行 分 组 。 2008 2009 2010 2011 
b. 计算 (a) 中 交叉 分 组 表 的 行 百分数 。 普通 153713 158704 163433 169106 
c， 对 这 两 个 变量 之 间 的 关系 进行 评价 。 会 员 115523 104795 98437 81217 
56. 参见 表 2-18 的 数据 集 。 学 校 82 885 79 876 81970 81290 
a. 绘制 学 费 和 毕业 率 之 间 关 系 的 散 点 图 。 合计 352 121 343375 343840 331613 
b. 对 这 两 个 变量 之 间 的 关系 进行 评价 。 : 
58. 动物 园 将 游客 分 为 三 类 ; 会 员 、 学 校 和 普通 。 会 员 & 绘制 全 体 参观 者 关于 随时 间 的 条 形 图 。 对 数据 
类 别 定义 为 缴 年 费 支 持 动物 园 的 游客 。 会 员 会 收 到 中 的 趋势 进行 评论 。 
动物 园 给 予 的 某 些 优惠 (如 商品 折扣 或 旅行 计 b 以 年 份 为 模 轴 上 的 变量 ， 绘制 展示 参观 者 游客 
划 )。 学 校 类 别 包括 日 托 、 小 学 和 中 等 学 校 的 全 体 ne ed | 
从 亚 天 员 和 学 生 ; 这 些 游客 会 得 到 一 个 折扣 比例 。 村 盾 | 的 汪汪 图 ， -其 村 | 物 国 厅 疯 者 
普通 类 别 包括 其 他 所 有 游客 。 动 物 园 注意 到 近期 参 发 生 的 情况 进行 评论 。 
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Pelican 商店 是 National Clothing 的 一 个 分 支 ， 是 一 家 在 全 美 范围 内 经 营 妇 女 服 饰 的 连锁 商店 。 最 近 ， 它 举办 了 
一 项 促销 活动 ， 向 其 他 National Clothing 商店 的 顾客 赠送 优惠 券 。 在 促销 活动 期 内 的 菜 一 天 ，Pelican 商店 抽取 了 
100 名 持 信 用 卡 交 易 的 顾客 组 成 一 个 样本 ， 搜 集 到 的 数据 存在 名 为 PelicanStores 的 文件 中 。 表 2-19 是 数据 集 的 一 
部 分 。Proprietary Card 付款 方法 是 指使 用 National Clothing 签 账 卡 收费 。 使 用 优惠 券 购物 的 顾客 定义 为 促销 顾客 ， 
没有 使 用 优惠 券 购物 的 顾客 定义 为 普通 顾客 。 因 为 优惠 券 不 会 派发 给 Pelican 商店 的 普通 顾客 ， 管 理 者 认为 ， 持 促 
销 优 惠 券 的 顾客 生产 的 销售 额 与 其 他 顾客 不 同 。 当 然 ，Pelican 的 管理 者 也 希望 促销 顾客 会 继续 在 他 的 商店 购物 。 

表 2-19 中 的 大 多 数 变 量 不 需要 解释 ,但 有 两 个 变量 需要 稍 做 说 明 。 


表 2-19 Pelican 商店 100 名 持 信用 卡 购物 的 顾客 的 样本 数据 


顾客 顾客 类 型 项 目 净 销售 额 支付 方法 性 别 婚姻 状况 年 龄 
1 普通 I 39. 50 ee 男 已 婚 32 
2 促销 | 102. 40 Proprietary Card 六 已 婚 36 
3 普通 1 22. 50 Brnidtare Cand 女 已 婚 32 
4 促销 5 100. 40 opietary Covd 女 已 婚 28 
5 普通 2 54. 00 Master Card 女 已 婚 34 
96 普通 1 39. 50 Master Card 女 已 婚 44 
97 促销 9 253. 00 Pelay Ci 女 已 婚 30 
98 促销 10 287. 59 RE 女 已 婚 52 
99 促销 2 47. 60 Proprietary Card 女 已 婚 30 
100 促销 28. 44 Proprietary Card 女 已 婚 44 


(1) 项 目 : 购买 商品 的 总 件数 

(2) 净 销 售 额 :信用卡 支付 的 总 金额 〈 单 位 : 美元 ) 

Pelican 的 管理 者 希望 使 用 这 些 样 本 数据 ， 以 了 解 其 顾客 的 基本 情况 并 对 使 用 优惠 券 的 促销 活动 进行 评估 。 
管理 报告 

使 用 描述 统计 的 表格 和 图 形 方法 来 帮助 管理 部 门 建立 顾客 档案 ， 并 对 促销 活动 进行 评估 。 你 的 报告 至 少 应 该 
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包括 以 下 内 容 : 
1. 主要 变量 的 百分数 频数 分 布 。 
2 条 形 图 或 鲜 形 图 ， 以 显示 顾客 使 用 各 种 付款 方式 的 购物 数量 。 
3. 顾客 类 型 (普通 或 促销 ) 与 净 销 售 额 的 交叉 分 组 表 ， 对 相似 性 与 差异 性 进行 评价 。 
4. 探索 净 销 售 额 与 顾客 年 龄 关系 的 散 点 图 。 


|/ 


er et eo hm 一 、 wy mm = A 
全 | 2-2 ”由 影 \ 
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电影 业 是 一 个 竞争 激烈 的 行业 ;每 年 有 超过 50 个 制 片 厂 制作 出 300 ~400 部 新 电影 ， 每 部 电影 商业 上 的 成 功 
差异 很 大 5 周末 首 映 票房 收入 (单位: 100 万 美元 ) 、 票 房 总 收入 (单位 : 100 万 美元 )、 放 映 电影 的 剧院 数 ， 以 
及 电影 放映 的 周 数 是 衡量 一 部 电影 是 否 成 功 最 常用 的 变量 。2011 年 制作 的 100 部 大 电影 的 样本 数据 存在 光 栓 中 名 
为 2011Movies 文件 中 (Box Office Mojo，2012 年 3 月 17 日 )。 表 2-20 是 文件 中 前 10 部 电影 的 有 关 数 据 。 


表 2-20 前 10 部 电影 的 业绩 数据 


电影 首 映 票房 〈100 万 美元 ) ”票房 总 收入 〈100 万 美元 ) 剧院 数 放映 周 数 
哈 利 波 特 与 死亡 圣 器 第 二 部 169. 19 381.0] 4375 19 
变形 金刚 : 月 黑 之 时 97. 85 352. 39 4088 15 
暮 光 之 城 ， 破晓 第 一 部 138. 12 281. 29 4.066 14 
宿 醉 2 85. 95 254. 46 3675 16 
加 勤 比 海盗 : 停 涛 怪 浪 90, 15 241.07 4164 19 
速度 与 激情 5 86. 20 209. 84 3793 15 
矶 中 谍 4; 幽灵 协议 12. 79 208. 55 3 555 13 
赛车 总 动员 2 66. 14 191. 45 4115 25 
福尔摩斯 : 诡 影 游戏 39. 64 186. 59 3703 13 
雷神 65.72 181. 03 3 963 16 
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使 用 描述 统计 学 的 表格 和 图 形 方法 来 了 解 这 些 变量 对 一 部 电影 成 功 有 怎样 的 贡献 你 的 报告 应 该 包括 以 下 
内 容 : 

1 四 个 变量 中 每 个 变量 的 表格 与 图 形 汇总 ， 接 着 根据 每 个 汇总 告诉 我 们 有 关 电 影 业 的 情况 。 

2: 探究 票房 总 政 入 与 周末 首 映 票房 收入 之 间 的 散 喜 图 ， 并 讨论 。 

3. 探 完 票房 总 收入 与 剧院 数 之 间 的 散 点 图 ， 并 讨论 。 

4. 探究 票房 总 收入 与 在 放映 周 数 之 间 的 散 点 图 ， 并 讨论 。 
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实践 中 的 统计 ; Small Fry 设计 公司 

3.1 位 置 的 度量 

3.2 变异 程度 的 度量 

3.3 ”分 布 形态 、 相 对 位 置 的 度量 以 及 腊 第 值 的 检测 
3.4 五 数 概括 法 和 箱 形 图 

3.5 两 变量 问 关 系 的 度量 

3.6 数据 仪表 板 : 增加 数值 度量 以 提高 有 效 性 
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实践 中 的 统计 
Small Fry 设计 公司 
加 利 福 尼 亚 州 ， 圣 安娜 


Small Fry 设计 公司 成 立 于 1997 年 ， 是 一 家 设计 和 
进口 婴儿 产品 的 公司 ,主要 经 营 玩具 和 附属 用 品 。 公 
司 的 产品 包括 泰 迪 能 、 咏 挂 饰物 、 音 乐 玩具 、 拨 浪 鼓 
和 安全 千 ， 以 及 设计 注重 颜色 、 材 质 和 和 声音 的 高 品质 
的 柔软 玩具 。 公 司 的 产品 在 美国 设计 ， 在 中 国生 产 。 

Small Fry 设计 公司 使 用 独立 的 销售 代理 ,把 产品 分 
销 给 婴儿 用 品 零 售 商 、 儿 童 用 品 及 服饰 商店 、 礼 品 店 、 
大 型 百货 商店 和 主要 的 邮购 公司 。 目 前 ，Small Fry 设计 
公司 的 产品 蓝 布 美国 的 1000 多 个 零售 批发 商店 。 

在 这 家 公司 的 日 常 运营 中 ， 现 金 流 管理 是 最 重要 的 经 营 
活动 之 一 。 是 否 能 够 保证 公司 拥有 足够 的 现金 收入 ， 以 满足 
目前 和 未 来 的 偿 债 义务 ， 决 定 着 公司 业务 的 成 败 。 现金 流 管 
理 的 一 个 关键 因素 是 对 应 收 账 款 的 分 析 和 控制 。 通 过 度量 未 
付款 发 票 的 平均 期 限 和 资金 数额 ， 管 理 人 员 能 够 预测 现金 供 
应 和 监视 应 收 账 款 状态 的 变化 。 公 司 设置 了 如 下 目标 : 未 付 
款 发 票 的 平均 期 限 不 应 超过 省 天 ; 超过 的 天 的 未 付款 发 票 的 
资金 数额 不 应 超过 所 以 应 收 账 款 总 额 的 596。 


在 最 近 对 应 收 账 款 的 汇总 中 ， 该 公司 使 用 了 下 面 


的 描述 统计 量度 来 衡量 未 付款 发 票 的 期 限 : 
平均 数 40 天 
中 位 数 35 天 
众 数 31 天 


对 这 些 统计 量 的 解释 表明 ， 一 张 发 票 的 平均 数 或 
平均 期 限 是 40 天 ; 中 位 数 表 明 有 一 半 的 发 票 已 经 超过 
35 天 没有 付款 ; 最 常见 的 发 票 期 限 是 众 数 为 31 天 ， 表 
明 一 张 未 付款 发 票 最 常见 的 时 间 长 度 是 31 天 。 统 计 汇 
总 还 显示 出 应 收 账 款 总 额 中 只 有 3% 超过 60 天 。 基 于 
这 些 统计 信息 ， 管 理 人 员 可 以 感到 满意 ， 因 为 应 收 账 
款 和 收 六 现金 流 都 处 于 控制 之 中 。 

在 本 章 中 ， 你 将 学 到 如 何 计算 和 理解 Small Fry 设 
计 公司 所 使 用 过 的 一 些 描述 统计 量 。 除 了 平均 数 、 中 
位 数 和 众 数 外 ， 你 还 将 学 到 其 他 的 描述 统计 量 ， 比 如 
极 差 、 方 差 、 标 准 差 、 百 分 位 数 和 相关 系数 。 这 些 数 
值 测度 将 有 助 于 读者 对 数据 的 理解 和 和 解释。 





在 第 2 章 中 ,我 们 讨论 了 汇总 数据 的 表格 和 图 形 方法 。 在 本 章 中 ,我 们 将 给 出 儿 种 描述 统计 学 的 数值 方法 ， 


它们 提供 了 汇总 数据 的 其 他 可 选 方 法 。 


首先 ， 我们 对 只 包含 一 个 变量 的 数据 集 建立 数值 汇总 的 度量 方法 。 当 数据 集 包 含 的 变量 不 止 一 个 时 ， 可 以 对 
每 个 变量 分 别 计算 其 相同 的 数值 测度 。 然 而 ， 在 有 两 个 变量 的 情况 下 ， 我 们 还 将 建立 变量 间 相 互 关系 的 度量 。 

本 章 我 们 将 介绍 位 置 、 离 散 程度 、 形 态 和 相关 程度 的 数值 度量 。 如 果 数 据 来 自 样本 ， 计 算 的 度量 称 为 样本 统 
计量 (sample statistics) 。 如 果 数 据 来 自 总 体 ， 计 算 的 度量 称 为 总 体 参 数 ( population parameters ) 。 在 统计 推断 中 ， 
样本 统计 量 被 称 为 是 相应 总 体 参 数 的 点 估计 量 (point estimator) 。 在 第 7 章 ， 我 们 将 详细 讨论 点 估计 方法 。 

在 本 章 的 三 个 附录 中 ， 我 们 将 演示 如 何 使 用 Minitab Excel 和 StatTools 来 计算 本 章 介绍 的 数值 方法 。 


3.1 位 置 的 度量 
3. 1.1 平均 数 


在 位 置 的 数值 度量 中 ， 最 重要 的 大 概要 数 变量 的 平均 数 “( mean) 或 平均 值 了 。 平均 数据 供 了 数据 中 心 位 置 
的 度量 。 如 果 数 据 来 自 茶 个 样本 ， 则 平均 数 用 x 表示; 如果 数据 来 自 某 个 总 体 ， 则 平均 数 用 希腊 字母 jx 表示 。 

在 统计 公式 中 ， 我 们 习惯 用 x, 来 表示 变量 x 的 第 一 个 观测 值 ， 用 x, 来 表示 变量 x 的 第 二 个 观测 值 ， 依 此 类 
推 。 一 般 地 ， 用 %, 来 表示 变量 x 的 第 i 个 观测 值 。 对 一 个 有 个 观测 值 的 样本 ， 其 样本 平均 数 的 计算 公式 如 下 : 


旺 ” 作 者 感谢 为 “实践 中 的 统计 ”提供 了 本 案例 的 Small Fe 设计 公司 总 裁 约 寺 A. 麦卡锡 。 


后 平均 数 有 时 也 称 为 算术 平均 数 。 
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在 式 (3-1) 中 ， 分 子 是 ”个 观测 值 的 数值 之 和 ， 即 


ZX = %i 十 % 二 


希腊 字母 之 是 求 和 符号 。 
为 了 说 明 样本 平均 数 的 计算 ， 由 大 学 的 5 个 班级 组 成 一 个 样本 ， 每 个 班级 的 学 生 人 数 是 : 
46 54 42 46 32 
我 们 用 符号 x, ，x;,，x，，ws 和 xs 分 别 表示 这 5 个 班 的 学 生 人 数 。 
Xi =46 %; 三 3 中 2 三 42 2 =46 ws 
因此 ， 为 计算 样本 平均 数 ， 我们 有 


Ew, V+%y + ny th ts 46 +54+42 +46 +32 
Bm ee 


班级 人 数 的 样本 平均 数 是 44 人。 

为 了 给 出 平均 数 直观 表述 ， 并 展示 其 如 何 受到 极端 值 的 影响 ， 考 虑 如 图 3-1 所 示 的 班级 人 数 数据 的 打点 
图 。 将 用 于 绘制 打点 图 的 横 轴 处 理 成 一 个 又 长 又 窄 的 平面 ， 在 这 个 平面 上 每 个 点 都 有 相同 的 固定 权重 。 平 均 
数 是 为 了 平衡 打点 图 我 们 放置 在 平面 下 方 的 支点 或 中 心 点 。 这 与 运动 场 上 的 跷 跷 板 的 工作 原理 相同 ， 唯 一 不 
同 的 是 跷 跷 板 的 中 心 点 在 中 间 ， 使 得 当 一 端 上 升 时 ， 另 一 端 下 降 。 在 打点 图 上 ， 我 们 根据 点 的 位 置 来 设置 中 
心 点 。 现 在 如 果 我 们 将 最 大 值 从 54 增 大 到 114 ， 考 虑 平衡 会 发 生 怎样 变化 。 为 了 重新 建立 平衡 ， 在 新 的 打点 
图 下 ， 我 们 需要 将 支点 向 正 的 方向 移动 。 为 了 确定 我 们 支点 移动 的 数值 ， 我 们 只 要 计算 修改 后 班级 人 数 数据 
的 样本 平均 数 。 


TD 了 3 
人 
因此 ， 修 改 后 班级 人 数 数 据 的 平均 数 为 56， 增 加 了 12 人 。 换 句 话 说， 为 了 建立 平衡 ， 在 新 的 打点 图 下 ， 我 


们 需要 将 平衡 点 向 右 移动 12 个 单位 。 









图 3-1 平均 数 作 为 班级 人 数 数据 打点 图 的 平衡 中 必 
下 面 是 计算 样本 平均 数 的 另 一 个 例子 。 候 设 某 大 学 生 就 业 指导 ，， 
办 公 室 对 一 个 商学 院 毕业 生 的 样本 进行 问卷 调查 ， 以 获取 大 学 毕业 雪 a 
生起 始 月 薪 的 有 关 信息 。 表 3-1 给 出 了 搜集 到 的 数据 ，12 名 商学 院 | 








毕业 生 的 平均 起 始 月 薪 的 计算 如 下 : 
二 -+ _3850 +3950+. -+3880 47280 _ i 
PN 12 "TT ST 


式 (3-1) 说 明了 有 个 观测 值 的 样本 如 何 计算 平均 数 。 而 计 
算 总 体 平均 数 的 公式 也 基本 相同 ， 但 是 我 们 使 用 不 同 的 符号 表示 我 
们 是 对 整个 总 体 计算 的 。 我 们 用 N 表示 总 体 观测 值 的 个 数 ， 用 kk 表 


日 样本 平均 数 x 是 一 个 样本 统计 量 。 
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示 总 体 平 均 数 。 





3. 1.2 加 权 平 均 数 

在 样本 平均 数 和 总 体 平均 数 的 公式 中 ， 每 个 x, 都 有 相同 的 重要 性 或 权重 。 例如 ， 样 本 平均 数 的 公式 可 以 写成 
如 下 形式 : : 
= + + "EP ) = 一 人 + (区 让 训 ， + (x,) 

这 表明 样本 中 每 一 个 观测 值 都 有 权重 1/n。 虽 然 在 实践 中 这 种 情况 最 常见 ， 但 有 时 ， 计 算 平均 数 时 会 对 每 个 
观测 值 赋予 显示 其 重要 性 的 权重 。 以 这 种 方式 计算 的 平均 数 称 作 加 权 平 均 数 (weighted mean) 。 加 权 平均 数 的 计 
算 公式 如 下 : 





当 数据 来 自 样本 时 ， 式 (3-3) 计算 的 是 加 权 样本 平均 数 。 当 数据 来 自 总 体 时 ， 式 (3-3) 计算 的 是 加 权 总 体 
平均 数 ， 并 用 大 取代 2 
作为 一 个 需要 加 权 平 均 数 的 例子 ， 考 虑 下 面 一 个 在 过 去 3 个 月 中 5 次 购买 原材料 的 样本 。 


购买 批 次 一 一” 答 和 阁 《〔 美 元 / 磅 ) 数量 ( 磅 ) 
1 3. 00 1 200 
2 0 500 
3 2,80 2750 
4 2, 90 1 000 
5 3.25 800 


注意 ， 每 磅 价格 在 2. 80 ~ 3. 40 美元 变化 ， 且 采购 数量 也 在 500 ~ 2750 磅 变化 。 假 设 某 经 理想 知道 原材料 每 磅 
平均 价格 的 有 关 信 息 。 因 为 订购 数量 各 不 相同 ， 我 们 必须 使 用 加 权 平 均 数 公式 。5 个 每 磅 价格 的 数据 分 别 为 x = 
3.00，x, =3. 40，x; =2. 80，x, =2.90 和 xs =3.25。 计 算 每 磁 价 格 的 平均 数 时 ,要 根据 每 个 价格 所 对 应 的 数量 来 
加 权 。 在 本 例 中 ， 五 个 权重 分 别 为 ; wi =1 200、 ws; =500、 w=/2 500、 re M0 利用 式 (3-3) ， 计 
算 加 权 平均 数 如 下 : 下 


‘1200 x3.00 +500x3:40 +275 ,2.80.+ 1 000x2. 尖 3525 .1 
3 z 1200 +500 +2750 +1000+800 2 

于 基 ， 使 用 加 权 平 均 计 算 原材料 每 磅 的 平均 价格 为 2 96 美元 。 注 意 ， 如 果 不 是 使 用 加 权 平均 数 公式 而 是 使 用 
式 (3-1) 计算 的 话 ， 就 会 得 到 带 有 误导 性 的 结果 。 在 这 种 情况 下 ， 5 个 每 磅 价格 的 平均 数 为 (3;00 £3.40+ 
2. 80 +2.90 +3.25)/5 = 15.35/5 =3.07 美元 ， 夸 大 了 每 磅 实际 的 平均 价格 。 

在 某 个 特殊 的 加 权 平 均 数 的 计算 中 ， 对 权重 的 选择 依赖 于 具体 的 应 用 。 一 个 被 大 学 生 们 所 熟知 的 例子 就 是 平 
均等 级 分 ( grade point average，CPA) 的 计算 。 在 计算 中 ， 普 遍 使 用 的 数值 是 : A 级 是 4，B 级 是 3，C 级 是 2，D 





加 ” 祥 本 平均 数 x 是 总 体 平均 数 严 的 点 估计 。 
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级 是 1, 了 级 是 0。 权重 就 是 取得 每 一 等 级 的 学 分 数 。 本 节 末 的 第 16 题 给 出 了 计算 GPA 加 权 平 均 数 的 一 个 例子 。 
在 其 他 加 权 平 均 数 的 计算 中 ， 经 常会 使 用 诸如 磅 、 美 元 、 体 积 等 数值 作为 权重 。 在 任何 情况 下 ， 当 观测 值 的 重要 
性 变化 时 ， 分 析 人 员 必 须 选 择 能 够 最 好 地 反映 每 个 观测 值 重 要 性 的 权重 ， 来 计算 加 权 平 均 数 。 


3. 1. 3 ”中 位 数 


中 位 数 (median) 是 对 变量 中 心 位 置 的 另 一 种 度量 。 将 所 有 数据 按 升序 〈 从 水 到 大 的 顺序 ) 排列 后 ， 位 于 中 
间 的 数值 即 为 中 位 数 。 当 观测 值 是 奇数 时 ， 中 位 数 就 是 位 于 中 间 的 那个 数值 ， 当 观测 值 是 偶数 时 ， 则 没有 单一 的 
中 间 数 值 。 在 这 种 情况 下 ， 我 们 遵循 惯例 ， 定义 中 位 数 为 中 间 两 个 观测 值 的 平均 值 。 为 了 方 生起 见 ， 我 们 重新 定 
义 中 位 数 如 下 。 





我 们 用 上 述 定义 来 计算 5 个 大 学 班级 样本 的 班级 人 数 的 中 位 数 。 将 这 5 个 数值 按 升序 排列 如 下 : 
。 ; ,A 42 46 46 $4 
由 于 n=5 是 奇数 ， 则 中 位 数 是 中 间 的 数值 ， 因 此 ， 班 级 人 数 的 中 位 数 是 46 人 。 当 我 们 按 升序 排列 数据 时 ， 尽 管 
数据 中 有 两 个 观测 值 是 46 ， 但 我 们 对 每 个 观测 值 单独 处 理 。 
我 们 再 来 计算 表 3-1 中 商学 院 毕 业 生 起 薪 的 中 位 数 。 我 们 首先 将 数据 按 升序 排列 如 下 : 
3710 37355 3830 3880 3880 二 2322) 3940 3950 4050 4130 4325 
由 于 n= 二 是 偶数 ， 我 们 找 出 中 间 的 两 个 值 3 890 和 3 920。 中 位 数 就 是 它们 的 平均 值 。 


中介 村 ~ 3909000 Sage 


我 们 用 于 计算 中 位 数 的 方法 依赖 于 是 有 奇数 个 观测 值 还 是 有 偶数 个 观测 值 。 现 在 ， 让 我 们 用 12 名 商学 院 毕 
业 生 起 始 月 薪 来 描述 更 具 概 念 性 和 直观 的 方法 。 之 前 ， 我 们 首先 将 数据 按 升序 排列 如 下 : 

3710 39755 . 3850 3880 - (93880 7 3890 3920™ B90 3950' #4050. 4130" “~ 4325 
一 旦 数据 按 升序 排列 ， 我 们 去 掉 一 个 极端 大 值 和 极端 小 值 构 成 的 对 ， 直 到 没有 更 多 的 数值 对 可 以 去 掉 为 止 ， 
但 不 能 消除 所 有 的 数据 。 例如 ， 在 去 掉 最 小 观测 值 (3 710) 和 最 大 观测 值 (4325) 后 ， 我 们 得 到 有 10 个 观测 值 
的 新 数据 集 。 

TI .3755 | 3850 :3880 .3880 3890 2920. .3940 ,3950, 4050 ,4130 .F325 
然后 ， 我 们 去 掉 其 次 剩余 的 最 小 值 (3 755) 和 其 次 剩余 的 最 大 什 (4130) ， 产 生 有 8 个 观测 值 的 新 数据 集 。 
TG FHS5 3850 3880 3880 3890 3920 3940 3950 4050 B40 T3245 
继续 这 个 过 程 ， 我 们 得 到 如 下 结果 。 

THC HF TI 3880 3880 3890 3920 3940 3950 F850 F130 F325 
IF0 TFI55 T803880 3890 3920 3940 F950 F850 THU Ya5 
3 F335 F580 T3800 F380 3890 390 F940 F950 Tesd 4430 F325 


在 这 一 点 ， 没 有 更 多 的 可 以 去 掉 且 不 能 消除 所 有 的 数据 是 可 能 的 。 因 此 ， 中 位 数 恰好 是 剩余 两 个 值 的 平均 值 。 
当 有 偶数 个 观测 值 时 ， 去 掉 过 程 将 永远 导致 两 个 剩余 值 ， 这 些 值 的 平均 值 就 是 中 位 数 。 当 有 奇数 个 观测 值 时 ， 去 挤 
过 程 将 永远 导致 一 个 最 终 值 ， 这 个 值 就 是 中 位 数 。 因 此 ， 无 论 观测 值 个 数 是 奇数 还 是 偶数 ， 这 种 方法 都 适用 。 


.54 商务 与 经 济 统计 


虽然 在 度量 数据 的 中 心 位 置 时 ， 更 常用 的 是 平均 数 。 但 在 某 些 情况 下 ,使 用 中 位 数 则 更 为 合适 。“ 平均 数 往往 
会 受到 异常 大 或 异常 小 的 数值 影响 。 例 如 ， 假 设 某 个 毕业 生 ( 见 表 3-1) 的 起 薪 为 每 月 10 000 美元 (也 许 他 的 家 
庭 拥有 这 家 公司 ) 。 如 果 我 们 把 表 3-1 的 最 高 起 始 月 薪 从 4325 美元 改 为 10 000 美元 ， 再 重新 计算 平均 数 ， 则 样本 
平均 数 将 从 3 940 美元 变 为 4413 美元 。 而 中 位 数 却 没有 改变 ， 仍 为 3905。 因 为 3 890 和 3 920 还 是 中 间 的 两 个 值 。 
当 存 在 异常 高 的 起 薪 情 况 时 ， 中 位 数 提供 了 比 平均 数 更 好 的 中 心 位 置 度量 。 我 们 通常 说 ， 在 数据 集 含有 异常 值 的 
情况 下 ， 中 位 数 往往 更 适合 于 度量 数据 的 中 心 位 置 。 


3. 1.4 几何 平均 数 


几何 平均 数 (geometric mean) 是 一 种 位 置 度量 ， 它 是 个 数值 乘积 的 款 次 方 根 。 几 何平 均 数 记 为 乓 ， 其 一 般 
公式 如 下 。 


几何 平均 数 常 常用 于 分 析 财 务 数据 的 增长 率 。 在 这 种 情形 中 ， 算 术 平均 数 或 平均 值 会 给 出 误导 性 结果 。 


为 了 说 明 几 何平 均 数 的 用 途 ， 考 虑 一 只 共同 基金 过 表 3-2 共同 基金 数据 的 年 回报 率 和 增长 因子 
去 10 年 间 的 年 回报 率 或 增长 率 ， 如 表 3-2 所 示 。 假 设 第 
1 年 年 初 在 该 基金 投资 100 美元 ， 我 们 想 计算 第 10 年 年 I -22.1 0: 779 
未 的 价值 。 我 们 首先 计算 该 基金 第 1 年 年 末 的 余额 。 由 0 了 
于 第 1 年 的 年 回报 率 为 -22.1% ， 则 该 基金 第 1 年 年 末 2 2 i 
的 余额 将 为 5 15.8 1. 158 
100 -0. 221 x 100 = 100 x (1'= 0; 221) 6 5.5 1. 055 
= 100 x0.779 = 77.90 美 元 ) i 0..630 
注意 ,在 表 3-2 中 0.779 被 称 为 增长 因子 2。 这 个 i me 
结果 表明 ， 用 第 1 年 年 初 在 该 基金 的 投资 额 乘 以 第 1 年 起 2 i 


的 增长 因子 ,我 们 可 以 计算 第 1 年 年 末 的 余额 。 

该 基金 第 ,1 年 年 末 的 余额 77.9 美元 ,现在 变 为 第 2 年 年 初 的 余额 。 由 于 第 2 年 的 回报 率 为 28: 7% ， 则 第 2 年 
年 末 的 余额 将 为 

77,9 +0.287 x77.9 = 77.9 x (1 + 0.287) = 77.9.x 1.287 = 100.2573( 美 元 ) 
注意 ，1. 287 是 第 2 年 的 增长 因子 。 带 入 100 x0. 779 或 77.9 (美元 ) ,我 们 看 到 第 2 年 年 末 的 余额 为 
100 x 0.779 x 1.287 = 100. 257 3( 美 元 ) 

换 句 话说 ,第 2 年 年 末 的 余额 恰好 是 第 1 年 年 初 的 最 初 的 投资 额 乘 以 两 个 增长 因子 的 乘积 。 这 个 结果 可 以 推 

而 广 之 ， 得 到 第 10 年 年 末 的 余额 为 最 初 的 投资 额 乘 以 所 有 增长 因子 的 乘积 。 
100 x 0.779 x 1.287 x 1.109 x 1.049 x 1.158 x1.055 x0.630 x1.265 x1.151 x1.021 
=100 x 1.334 493 = 133. 449 3( 美 元 ) 

因此 ， 第 1 年 年 初 在 该 基金 的 100 美元 投资 额 ， 第 10 年 年 末 价值 将 为 133. 449 3 美元 。 注 意 ，10 个 增长 因子 的 乘 
积 为 1.334 493。 因 此 ， 对 第 1 年 年 初 的 任何 数量 的 投资 额 ,我 们 可 以 计算 第 10 年 年 末 的 余额 为 最 初 的 投资 额 乘 以 
1.334493。 例 如 ， 第 1 年 年 初 投资 额 为 2500 美元 , 第 10 年 年 末 价 值 将 为 2500 x1:334 493 或 大 约 3336 美元 。 

但 是 ， 过 去 10 年 间 这 项 投资 的 平均 年 回报 率 或 平均 增长 率 是 多 少 ? 让 我 们 来 看 如 何 使 用 10 个 增长 因子 的 几 


© 仙人 ， 经 常用 在 年 收入 及 资产 价值 数据 的 报告 中 ， 因 为 少数 极端 大 的 收入 和 资产 价值 将 会 伟大 平均 数 。 在 这 种 情 
中 位 数 就 是 对 中 心 位 置 更 好 的 度量 。 
= | 加 上 0.01 乘 以 回报 率 。 增长 因子 小 于 1， 表 明 负 增长 ， 而 增长 因子 大 于 1， 表 明正 增长 。 增 长 因子 不 能 小 于 0. 
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何平 均 数 回答 这 个 问题 。 由 于 10 个 增长 因子 的 乘积 为 1. 334 493 ， 几 何平 均 数 是 1.334493 的 10 次 方 很 或 
¢, = Vi 334493 = 1.029 275 

几何 平均 数 告诉 我 们 年 收益 平均 以 (1.029 275 -1) x100% 或 2.927 5% 的 速率 增长 。 换 句 话 说 ， 对 于 2. 927 5% 
的 年 平均 增长 率 , 第 1 年 年 初 在 该 基金 的 100 美元 投资 额 ,第 10 年 年 末 将 增加 到 100 x1. 029 275” =133. 449 3 美元 。 

了 解 年 回报 率 的 算术 平均 数 不 能 提供 这 个 投资 的 平均 年 增长 率 是 非常 重要 的 。 表 3-2 中 的 10 个 年 增长 率 之 和 
为 50.4， 因 此 ，10 个 年 回报 率 的 算术 平均 数 为 50.4/10 = 5. 04% 。 一 个 经 纪 人 通过 声称 平均 年 回报 率 为 5.04% ， 
试图 说 服 你 投资 这 个 基金 。 这 个 声明 不 仅 容易 让 人 误导 ， 还 是 错误 的 。 平 均 年 回报 率 5. 04% 对 应 的 平均 增长 因子 
为 1.0504。 因 此 ， 如 果 平均 增长 因子 确实 为 1.0504 的话， 第 ! 年 年 初 在 该 基金 投资 100 美元 ， 第 10 年 年 末 将 增 
加 到 100 x1.0504”=163.451 美元 。 但 是 ， 利 用 表 3-2 中 的 年 回报 率 ， 我们 看 到 最 初 的 100 美元 投资 额 第 10 年 年 
未 的 价值 为 133. 45 美元 。 这 个 经 纪 人 的 平均 年 回报 率 为 5.04% 的 声明 极度 夸大 了 该 共同 基金 的 实际 增长 率 。 这 
个 问题 是 样本 平均 数 只 适合 于 加 法 过 程 。 对 于 乘法 过 程 ， 诸 如 增长 率 的 应 用 ， 几 何平 均 数 是 合适 的 位 置 度量 。 

在 财务 、 投 资 和 银行 业 的 问题 中 ， 几 何平 均 数 的 应 用 尤为 常见 ， 当 你 任何 时 候 想 确定 过 去 儿 个 连续 时 期 的 平 
均 变 化 率 时 ， 都 能 应 用 儿 何平 均 数 。 其 他 通常 的 应 用 包括 物种 总 体 、 农 作物 产量 、 污 染 水 平 以 及 出 生 率 和 死亡 率 
的 变化 。 注 意 ， 几 何平 均 数 也 可 以 用 于 发 生 在 所 有 时 间 长 度 的 连续 时 期 的 任何 数量 的 变化 率 。 除 了 年 变化 率 外 ， 
几何 平均 数 也 常常 用 于 发 现 季度 、 月 、 周 以 及 天 的 平均 变化 率 。 


3. 1.5%m 次 数 
男 一 种 位 置 度量 是 众 数 (mode) 。 众 数 的 定义 如 下 。 






为 了 说 明 如 何 确定 众 数 ， 我 们 考虑 5 个 班级 人 数 的 样本 。 出 现 次 数 超过 一 次 的 数值 只 有 46。 由 于 这 个 数值 的 
出 现 次 数 为 2， 是 出 现 次 数 最 多 的 数值 ， 所 以 它 就 是 众 数 。 作 为 另外 一 个 例子 ， 考 虑 商学 院 毕 业 生 起 薪 数 据 的 样 
本 。 只 有 3 880 美元 是 唯一 出 现 次 数 超过 一 次 的 起 始 月 薪 数 值 。 既 然 它 出 现 的 频数 最 多 ， 它 就 是 众 数 。 

有 时 出 现 次 数 最 多 的 数值 可 能 有 两 个 或 更 多 。 在 这 种 情况 下 ， 存 在 不 止 一 个 众 数 。 如 果 在 数据 中 正好 有 两 个 
众 数 ， 我 们 称 数据 集 是 双 众 数 的 。 如 果 在 数据 中 众 数 超过 两 个 ， 我 们 称 数 据 集 是 多 众 数 的 。 在 多 众 数 的 情况 下 ， 
几乎 从 不 报告 众 数 。 因 为 列 出 三 个 或 以 上 的 众 数 ， 对 于 描述 数据 的 位 置 并 不 能 起 多 大 作用 。 


3. 1.6 百 分 位 数 

百 分 位 数 〔percentile) 提供 了 数据 如 何 散布 在 从 最 小 值 与 最 大 值 的 区 间 上 的 信息 。 对 于 没有 多 个 重复 数值 的 
数据 ， 第 六 百 分 位 数 将 数据 分 割 为 两 个 部 分 : 大 约 有 p% 的 观测 值 比 第 p 百 分 位 数 小 ; 而 大 约 由 (100 -p)% 的 观 
测 值 比 第 p 百 分 位 数 大 。 第 p 百 分 位 数 的 严格 定义 如 下 。 






高 等 院 校 经 常 以 百 分 位 数 的 形式 报告 人 学 考试 的 成 绩 。 比 如 ， 假 设 一 名 申请 者 人 学 考试 的 语言 部 分 得 到 的 原始 
分 是 54 分 。 相 对 于 参加 同样 考试 的 其 他 学 生 ， 这 个 学 生 的 表现 如 何 ， 人 们 可 能 看 不 清楚 。 但 是 ， 如 果 原 始 的 54 分 恰 
好 对 应 着 第 70 百 分 位 数 ， 那 么 我 们 就 能 知道 ， 大约 有 70% 的 学 生 的 成 绩 比 他 低 ， 大 约 有 30% 的 学 生成 绩 比 他 高 。 


加 使 用 大 多 数 计 算 器 或 使 用 Excel 中 的 POWER 函数 ， 可 以 计算 n 次 方 根 。 例 如 ， 使 用 Excel，1: 334 493 的 10 次 方 根 =POWER 
(1.334493，1/10) 或 1.029275。 
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下 面 是 用 来 计算 第 p 百 分 位 数 的 步 又 : 





为 了 举例 说 明 上 面 的 计算 步 又， 我 们 来 确定 表 3-1 中 起 薪 数 据 的 第 85 
第 1 步 : 将 数据 按 升序 排列 ， 

3710 3725 .3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 
第 2 步 : 





j=( 击 )* = 10.2 


第 3 步 : 由 于 i 不 是 整数 ， 故 向 上 取 整 。 第 85 百 分 位 数 的 位 置 是 大 于 10. 2 的 下 一 个 整数 ， 即 第 基 项 。 
再 回 到 数据 中 ， 我 们 看 出 第 85 百 分 位 数 是 第 11 项 的 数值 ， 即 4 130。 
作为 另 一 个 例子 ， 我 们 考虑 第 50 百 分 位 数 的 计算 。 应 用 第 2 步 ， 我 们 得 到 : 


‘ni =6 


由 于 i 是 整数 ， 由 第 3 步 (b) 可 知 , 第 50 百 分 位 数 是 第 6 项 与 第 7 项 数据 的 平均 值 。 因 此 第 50 百 分 位 数 是 
(3 890 +3 920)/2 = 3 905。 注意 第 50 百 分 位 数 同时 也 是 中 位 数 。 





人 需要 糙 数据 划分 为 四 部 分 ， 每 一 部 分 大 约 包含 1/4 或 25% 的 观测 值 。 这 些 分 割 点 称 为 四 分 位 数 
(quartiles)  ， 其 定义 是 Be 
- = 第 一 四 分 位 数 ， 或 第 25 百 分 位 数 
= 第 二 四 分 位 数 ， 或 第 50 百 分 位 数 ( 也 是 中 位 数 ) 
’ Mp -四 分 位 数 ， 或 第 75 百 分 位 数 ， 
为 了 计算 起 薪 数据 的 四 分 位 数 ， 我 们 将 数据 
3710 3725 3850 3880 3880 3890 3920 3940 3950 4050 4130 4325 
eg 和 第 计 加 分 位 数 (中 位 数 ) 为 3905。 计 算 Q@, 和 Q ， 需 要 利用 计算 第 25 可 分 信教 和 和 第 75 








=( 击 " -( 浆 高 jz- 


于 困 ， 由 计算 法 则 的 第 3 步 (b) 可 知 ， 第 一 四 分 位 数 即 第 25 百 分 位 数 ， 是 第 3 项 与 第 4 项 数值 的 
平均 值 。 所 以 0 850 +3 880)/2 =3 865 。 
对 于 六 





日 、 遵 循 这 些 步 又 将 使 得 计算 百 分 位 数 相当 容易 。 
加 ”四 分 位 数 是 一 种 特殊 的 百 分 位 数 ， 因 此 ， 计算 百 分 位 数 的 步骤 可 以 直接 用 于 四 分 位 数 的 计算 。 
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I Ne 
i= (06)"= (i00) 2 = 


同样 ， 由 于 i 是 整数 ,由 计算 法 则 的 第 3 步 (b) 可 知 ， 第 三 四 分 位 数 即 第 75 百 分 位 数 ， 是 第 9 项 与 第 10 项 
数值 的 平均 值 。 所 以 Qs = (3 950 +4050)/2 =4 000。 
四 分 位 数 将 起 薪 数 据 划分 为 四 部 分 ， 每 部 分 包含 25% 的 观测 值 。 








25% 的 数据 的 数据 。 这 作物 的 并 所 二 25% 的 数据 
3710 二 3725 3850 |33880 3880 3890 | 3920 3940 3950 | 4050 4130 ” 4325 
Qi =3 865 0; =3905 0 =4 000 
(中 位 数 ) 


我 们 将 四 分 位 数 分 别 定义 为 第 25 百 分 位 数 、 第 50 百 分 位 数 和 第 75 百 分 位 数 。 因 此 ， 我 们 用 和 计算 百 分 位 数 
相同 的 方法 计算 四 分 位 数 。 但 是 ,有 时 也 用 其 他 方法 来 计算 四 分 位 数 ， 而 且 根 据 所 用 方法 的 不 同 ， 计 算出 四 分 位 
数 的 实际 值 也 会 略 有 不 同 。 不 过 ,计算 四 分 位 数 的 所 有 方法 的 目的 都 是 将 数据 划分 为 相等 的 四 部 分 。 

1 当 数 据 集中 含有 极端 值 时 ，} 使 用 中 位 数 作 为 中 心 位 置 的 度量 比 平 均 数 更 合适 。 有 时 ， 当 存在 极端 值 的 情况 

下 ， 我 们 使 用 调整 平均 数 (trimmed mean)。 从 数据 中 删除 一 定 比 例 最 大 值 和 最 小 值 ， 然 后 计算 剩余 数据 
的 平均 值 ， 就 能 得 到 调整 平均 数 。 例如; 我 们 从 数据 中 删除 5% 最 小 的 数值 和 5 名 最 大 的 数值 ， 然 后 计算 
剩余 数据 的 平均 值 ， 就 得 到 5% 调整 平均 数 。 对 n=12 的 起 薪 样 本 数据 ，0.05 x 12 =0.6。 四 合 五 入 得 这 个 
值 为 1， 表 明 5% 调 整 平均 数 将 删除 一 个 最 小 的 数值 和 一 个 最 大 的 数值 。 用 10 个 剩余 观测 值 计算 的 5% 调 
整 调整 平均 数 为 3 924. 50。 

. 其 他 常用 的 百 分 位 数 是 五 分 位 数 ( 第 20 百 分 位 数 、 第 40 百 分 位 数 、 第 60 百 分 位 数 和 第 80 百 分 位 数 ) 和 
十 分 位 数 (第 10 百 分 位 数 、; 第 20 百 分 位 数 、 第 30 百 分 位 数 、 第 40 百 分 位 数 、 第 50 百 分 位 数 、 第 60 百 
分 位 数 、 第 70 百 分 位 数 、 第 -80 百 分 位 数 和 第 90 百 分 位 数 ) 。 


kt5 






方法 面 进攻 ， 从 2008 ~ 2009 年 篮球 赛季 开始 ，NCAA 规 


2. 考虑 数据 值 10，20， 21，17，16 和 12 为 一 个 样本 ， 则 委员 会 将 3 分 线 从 19 英尺 9 英寸 向 后 移 到 .20 英 
计算 平均 数 和 中 倍数。 尺 9 英 寸 。 由 2008 ~ 2009 年 赛季 NCAA 的 19 场 篮 
4. 考虑 下 面 的 数据 。 球 比 赛 组 成 一 个 样本 ， 下 表 是 3 分 球 投 篮 次 数 和 3 


分 球 投篮 命中 次 数 的 样本 数据 。 








过 去 5 个 时 期 的 平均 增长 率 是 多 少 ? 
六 6. 考虑 数据 值 53、55、'70: 58、64、57、53、69、57、 
68 和 53 的 一 个 样本 ,计算 平均 数 、 中 位 数 和 众 数 。 


应 用 


“IH oo tn 大 全 0 nO 


8 在 2007 2008 年 美国 大 学 生 篮 球 联赛 (NCAA) 赛 
季 ， 男 子 篮球 队 试图 创下 3 分 投篮 历史 新 高 ， 场 均 z 
19;07 个 〈《 美 联 社 体育 》，2009 年 1 月 24 日 )。 为 a. 每 场 比 赛 3 分 求 投 复 的 平均 次 数 是 多 少 ? 
了 试图 阻止 这 么 多 的 3 分 投篮 ， 并 且 鼓 励 在 禁区 里 b. 每 场 比赛 3 分 球 命中 的 平均 次 数 是 多 少 ? 


10. 


1 


14. 
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c. 较 近 的 3 分 线 , 球员 的 命中 认为 35.2% 。 对 新 的 
3 分 线 ， 球员 的 命中 率 是 多 少 ? 

d. 在 2008 ~2009 年 赛季 ，NCAA 改变 规则 ， 将 3 分 
线 向 后 移 到 20 英尺 9 英寸 的 影响 是 什么 ? 美 联 
社 体 育 (Associated Press Sport) 的 文章 声称 : “3 
分 线 后 移 并 没有 使 比赛 发 生 显著 的 变化 ”你 是 
否 赞 同 这 个 观点 ? 请 解释 。 

《华尔街 日 报 》 提 供 了 消费 者 购买 诸如 独 户 住宅 、 

汽油 、 互 联网 服务 、 报 税 服务 和 住院 治疗 等 方面 的 

费用 (2007 年 1 月 2 日 )。 由 H&R Bloek 提供 服务 

的 纳税 申报 准备 费用 的 典型 样本 数据 如 下 。 

120 230 110 115 160 130 150 105 195 155 
105 360 120 120 140 100 115 180 235 255 

a. 计算 平均 数 、 中 位 数 和 众 数 。 

b, 计算 第 一 和 第 三 四 分 位 数 。 

c, 计算 并 解释 第 90 百 分 位 数 。 

由 约翰 尼 ， 盖 尔 克 奇 、 吉 姆 * 帕 森 斯 和 凯 莉 " 库 

柯 主演 的 系列 情景 喜剧 《生活 大 爆炸 》， 是 收视 最 

高 的 电视 节目 之 一 。2011 年 9 月 22 日 首播 了 

2011 ~2012 播 出 季 的 前 2 集 ; 第 1 集 创 下 了 14100 

万 的 收视 人 数 ， 第 2 集 创 下 了 14700 万 的 收视 人 

数 。2011 ~2012 播 出 季 的 前 21 集 的 收视 人 数 ( 单 

位 ; 100 万 ) 如 下 表 所 示 。 











收视 人 数 
提出 月 其 bl0g 万 ) (100 万 ) 
2011. 9. 22 14. 1 2012.1. 12 













2011 9, 22 14.7 2012. 1. 19 15.8 
2011, 9. 29 14.6 2012, 1. 26 16. 1 
2011. 1076 13.6 2012. 2;2 16.5 
2011. 10. 13 13.:6 201252. 9 16: 2 
2011. 10. 20 14.9 2012. 2. 16 15.7 
2011. 10. 27 14.5 2012. 2, 27 16.2 
201i, LE 16.0 2012, 3.8 15.0 
2011. 11, 10 15.9 2012. 3, 29 14.0 
2011. 11.17 15.1 '2012.4.5 13.1 


2011. 12. 8 





a. 计算 妆 视 人 数 的 最 大 值 和 最 小 值 。 

b. 计算 平均 数 、 中 位 数 和 众 数 。 

c. 计算 第 一 和 第 三 四 分 位 数 。 

d. ;2011 ~2012 播 出 季 电 视 观 众 是 上 升 了 还 是 下 降 
了 ? 请 讨论 。 

存在 名 为 Unemp 的 文件 中 的 数据 给 出 了 美国 各 州 

和 哥伦比亚 特区 的 2011 年 3 月 和 2012 年 3 月 的 失 

业 率 (Bureau of Labor Statistics website，2012 年 4 

月 20 日 )。 为 了 比较 2011 年 3 月 和 2012 年 3 月 的 


六 16. 


失业 率 ， 计 算 2011 年 3 月 和 2012 年 3 月 的 失业 教 

据 的 第 一 四 分 位 数 、 中 位 数 和 第 三 四 分 位 数 。 这 

些 统计 量 对 全 国 失 业 率 的 变化 的 建议 是 什么 ? 

大 学 生 的 平均 等 级 分 是 粮 据 计算 加 权 平 均 数 得 到 

的 。 在 大 多 数学 校 中 ， 用 下 列 数值 来 分 别 代 表 各 个 

CB (3 Ca Dl EA0), 

州立 大 学 的 某 个 学 入 在 结束 了 60 个 学 分 的 课程 学 

习 之 后 ， 有 9 个 学 分 获得 A，15 个 学 分 获得 B，33 

个 学 分 获得 C，3 个 学 分 获得 D。 

a 计算 这 个 学 生 的 平均 等 级 分 。 

b. 州立 大 学 的 学 生 们 在 前 60 个 学 分 的 课程 学 习 
中 ， 应 至 少 达 到 2.5 个 平均 等 级 分 才能 被 商学 
院 录取 。 问 该 学 生 能 被 录取 吗 ? 


. 根据 和 25 个 工商 管理 硕士 项 目的 调查 , 《美国 新 闻 


与 世界 报道 》 将 印第安 纳 大 学 Kelley 商学 院 排 在 
全 美国 最 佳 工 商 管理 项 目的 第 20 位 (4merica's 
Best Graduate School，2009 年 )。 排 序 的 依据 是 对 商 
学 院 院 基 和 企业 招聘 人 员 的 调查 。 要求 每 一 名 调 
查 对 象 对 学 院 硕士 项 目的 整体 学 来 质量 评定 分 数 ， 
从 1 ( 鳃 强 够 格 ) 到 5( 赤 出 )。 利用 下 表 中 商学 
院 院 长 和 企业 招聘 人 员 评 定 的 样本 数据 ， 计 算 加 
权 平 均 得 分 。 请 讨论 。 


质量 评估 商学 院 院 长 企业 招聘 人 员 
5 44 3] 
4 66 34 
3 60 43 
2 10 12 
I 0 0 


20. 2004 年 年 初 假设 你 在 Stivers 共同 基金 中 投资 10 000 


22. 


美元 ， 在 Trppi 共同 基金 中 投资 5 000 美元 二 随后 
一 年 年 末 每 项 投资 的 价值 如 下 表 所 示 。 哪 只 共同 
基金 表现 得 更 好 ? 


年 Stivers 共同 基金 ”Trppi 共同 基金 
2004 11-000 5-600 
2005 12 000 6 300 
2006 13 000 6 900 
2007 14 000 7 600 
2008 15 000 8 500 
2009 16 000 9 200 
2010 17 000 9 900 
2011 18 000 10 600 


公司 当前 的 价值 是 0:25 亿美 元 。 如 果 6 年 前 公司 
的 价值 是 0.1 亿 美元， 则 过 去 暮年 间 公 司 的 年 平均 
增长 率 是 多 少 ? 
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3.2 变异 程度 的 度量 


除了 位 置 的 度量 以 外 ， 人 们 往往 还 需要 考虑 变异 程度 亦 即 离散 程度 的 度量 。 例 如 ， 假 设 你 是 一 家 大 型 制造 公 
司 的 采购 代理 商 ， 你 经 常 向 两 个 不 同 的 供应 商 下 订单 。 经 过 几 个 月 的 运营 ， 你 发 现 两 个 供 货 商 完成 订单 所 需 的 平 
均 时 间 都 是 10 天 左右 。 二 者 完成 订单 所 需 时 间 的 直方 图 如 图 3-2 所 示 。 尽 管 两 个 供 货 商 的 平均 交 货 时 间 都 是 10 
天 ， 但 他 们 在 按时 交 货 方面 是 否 拥有 相同 的 可 信和 度 ? 注意 直方 图 中 交 货 时 间 的 变异 程度 或 离散 程度 ， 你 会 选择 哪 
一 家 供 货 商 呢 ? ” 





9 10 1 yo 7 Ts 
交 货 时 间 天 数 交 货 时 间 天 数 


3-2， 完 成 订单 所 需 时 间 的 直方 图 


对 于 大 多 数 公司 来 说 ， 按 时 收 到 原材料 和 货物 供给 是 很 重要 的 。 从 工 C. Clark 经 销 商 的 直方 图 来 看 ，7 天 或 8 
天 交 货 可 能 会 受到 称赞 ,但 是 一 部 分 延迟 到 13 ~ 15 天 的 交 货 ， 对 于 协调 公司 员工 的 安排 和 按时 完成 生产 认为 将 
非常 困难 。 这 个 例子 说 明了 这 样 一 种 情形 ， 即 交 货 时 间 的 变异 程度 往往 是 选择 供应 商 的 最 主要 考虑 因素 。 对 大 多 
数 的 采购 代理 商 来 说 ， 像 Dawson 供应 公司 这 样 变异 程度 较 小 的 供应 商 ， 才 是 较 理 想 的 供应 商 。 

现在 我 们 来 讨论 一 些 常 用 的 变异 程度 的 度量 。 


3. 2.1 ， 极 差 
极 差 (range) 是 一 种 最 简单 的 变异 程度 的 度量 。 


全 3 IT md 加 






0 F 
f = . 
=> - Se 


让 我 们 参阅 表 3-1 中 商学 院 毕 业 生 的 起 新 数据 。 最 高 起 薪 为 4325 美元 ， 最 低 起 薪 为 3 710 美元 。 因 此 ， 极 差 
为 4325 -3710=615 (美元 )。 

尽管 极 差 是 最 容易 计算 的 变异 程度 的 度量 ， 但 它 很 少 被 单独 用 来 度量 变异 程度 。 原 因 是 极 差 仅仅 以 两 个 观测 
值 为 依据 ， 因 此 极 易 受 到 异常 值 的 影响 。 假 设 某 个 毕业 生 的 起 薪 为 每 月 10 000 美元 ， 在 这 种 情况 下 ， 极 差 将 为 
10 000 -3 710 =6290 (美元 ) ， 而 不 是 615 美元 。 如 此 之 大 的 极 差 将 不 能 准确 地 描述 数据 的 变异 程度 ， 因 为 在 12 
个 起 薪 数据 中 有 11 个 都 集中 在 3710 ~4 130。 


3. 2. 2 ”四 分 位 数 间距 


四 分 位 数 间距 (interquartile range，IQR) 作为 变异 程度 的 一 种 度量 ， 能 够 克服 异常 值 的 影响 。 它 是 第 三 四 分 
位 数 0, 与 第 一 四 分 位 数 0, 的 差 值 。 也 就 是 说 ， 四 分 位 数 间距 是 在 中 间 的 50% 的 数据 的 极 差 。 


加 ” 交 货 时 间 的 变异 性 造成 按时 完成 生产 的 不 确定 性 ， 本 节 的 方法 有 助 于 测量 和 也 解 变异 性 。 
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对 于 起 薪 数据 ， 四 分 位 数 0, =4 000 和 0, =3 865。 因 此， 四 分 位 数 间距 等 于 4 000 -3 865 =135 (美元 )。 


312.30 方 整 
方差 (variance) 是 用 所 有 数据 对 变异 程度 所 做 的 一 种 度量 。 方 差 依 赖 于 每 个 观察 值 (x,) 与 平均 值 之 间 的 差 
异 ， 每 个 观察 值 x; 与 平均 值 (对 样本 而 言 是 x*， 对 总 体 而 言 是 4) 的 差 称 为 平均 数 的 离 差 ( deviation about the 
mean)。 对 于 样本 而 言 ， 平 均 数 的 离 差 记 为 (x; -*); 对 于 总 体 而 言 ， 则 记 为 《x%, -上 ) 。 在 计算 方差 时 ， 需 要 将 
平均 数 的 离 差 平 方 。 
如 果 数 据 来 自 总 体 ， 则 离 差 平方 的 平均 值 称 为 总 体 方差 (population var 


ance) ， 总 体 方差 用 希腊 字母 0? 表示 。 





对 于 有 个 观察 值 的 总 体 ， 用 表示 省 体 平均 数 ， 总 体 方差 的 定义 如 下 : 





在 大 多 数 的 统计 应 用 中 ， 需 要 分 析 样 本 数据 。 当 我 们 计算 样本 方差 时 ， 更 希望 用 它 来 估计 总 体 方差 o +。 虽然 
关于 样本 方差 的 详细 解释 已 超出 了 本 书 的 范围 ， 但 可 以 证 明 ， 如 果 样 本 平均 数 的 离 差 平方 和 除 以 n -1， 而 不 是 n 
时 ,所 得 到 的 样本 方差 9 是 总 体 方差 的 无 偏 估计 。 鉴 于 此 ， 用 s* 表示 的 样本 方差 (sample variance) 定义 如 下 : 





为 了 举例 说 明 样 本 方差 的 计算 过 程 ， 我 们 使 用 第 3.1 节 的 5 个 大 学 班级 样本 的 班级 人 数 数 据 。 在 天 3- 3 中 给 
出 了 数据 汇总 ， 包 括 平均 数 的 离 差 和 平方 离 差 的 计算 过 程 。 平 均 数 的 离 差 平方 和 为 工 (x, -*)* =256, 并 且 n -1= 


4。 所 以 样本 方差 为 






表 8-3 





平均 数 的 离 差 Mh 平均 数 离 差 的 平方 (Xi—X)2 


9 4 

54 44 10 100 

42 4 -= 4 

46 4 3 

32 4 =& Ek 
Z(x; 一 4) AD 


我 们 注意 到 ， 和 因为 在 方差 的 计算 中 ， 求 和 的 数值 (x; -x*) 都 是 平 
方 ， 所 以 样本 方差 的 单位 也 是 平方 。 例如， 班级 人 数 数据 的 样本 方差 为 8 =64 (人 ) 。 方差 的 平方 单位 使 得 人 们 对 
于 方差 的 数值 很 难 找到 直观 的 理解 和 诠释 。 我 们 建议 您 把 方差 作为 比较 两 个 或 以 上 变量 变异 程度 的 有 用 工具 < 在 变 





日 ”样本 方差 ”是 总 体 方差 e- 的 点 估计 。 
日 方差 在 比较 两 个 或 以 上 变量 的 变异 程度 时 很 有 用 。 
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量 的 比较 中 ， 拥 有 较 大 方差 的 变量 显示 其 变异 程度 也 较 大 ， 而 对 于 方差 数值 的 进一步 解释 可 能 就 没有 必要 了 。 
作为 计算 样本 方差 的 另 一 个 例子 ， 考虑 表 3-1 中 12 名 商学 院 毕业 生 的 起 薪 数 据 。 在 3. 1 节 我 们 计算 出 起 务 的 样 
本 平均 数 为 3940。 样 本 方差 (s* =27 440.91) 的 计算 过 程 如 表 3-4 所 示 。 


表 3-4 ”起 薪 数 据 的 样本 方差 的 计算 





起 始 月 薪 (x) 样本 平均 数 (xX) 平均 数 的 离 差 (Xi -Xx) 平均 数 离 差 的 平方 (Xi -Xx)” 
3850 | 3 940 -90 8 100 
3950 3 940 10 100 
4 050 3 940 110 12 100 
3 880 3 940 -60 3 600 
3755 ”3940 -185 34225 
3710 3 940 -230 52.900 
3 890 3 940 -50 2500 
4 130 3 940 190 36 100 
3 940 3 940 0 0 
4 325 3 940 385 148 225 
3 920 3 940 -20 400 
3 880 : 3 940 -60 3 600 

0 301 850 
P(xi~%) 区 (w=%)> 


由 式 (3-7) 








从 考 Bw 一 2) = 


nl 


=27440.91 





在 表 3-3 和 表 3.4 中 ， 我 们 列 出 了 平均 数 的 离 差 之 和 ， 也 列 出 了 平均 数 的 平 坟 高 关 之 和 ,对 任 何 数据 集 ;平均 
的 离 差 之 和 将 总 是 等 于 零 。 在 表 3-3 和 表 3-4 中 ,我们 注意 到 二 (x, -x*) =0。 由 于 正 的 离 差 和 和 负 的 离 差 总 是 相互 抵 
消 ， 从 而 导致 平均 数 的 离 差 之 和 等 于 零 。 


3.2.4 标准 差 


我 们 定义 标准 差 (standard deviation) 为 方差 的 正平 方 根 。 沿用 前 面 的 样本 方差 和 总 体 方差 的 记号 ,我 们 以 表 
示 样 本 标准 差 ， 以 a 表示 总 体 标准 差 。 标 准 差 可 以 用 以 下 方法 从 方差 推导 而 来 。 





我 们 记 和 ， 样 本 标准 差 为 
s = V27 440. 91 =165. 65, 

将 方差 转 为 与 其 相对 应 的 标准 差 有 什么 好 处 ? 我 们 知道 方差 的 单位 都 是 平方 项 ， 例 如 ， 对 于 商学 院 毕业 生 的 
起 薪 数 据 ， 样 本 方差 为 =27 440.91 (美元 ) 。 由 于 标准 差 是 方差 的 平方 根 ， 因 此 方差 的 单位 美元 平方 就 转化 为 标 
准 差 的 单位 美元 。 所 以 ， 准 差 为 165. 65 美元 。 换 句 话 说 ,标准 差 和 原始 数据 的 单位 度量 相同 。 标 准 差 
更 容易 和 单位 与 平均 数 等 其 他 统计 量 进行 比较 ， 这 是 由 于 它们 的 单位 与 原始 数据 是 相同 的 。 





日 样本 标准 差 s 是 总 体 标准 差 o 的 点 估计 。 
加 ”标准 差 比方 差 更 易于 解释 ， 因 为 标准 差 与 数据 的 单位 相同 。 
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3. 2.5 标准 差 系 数 
在 某 些 情况 下 ， 我们 可 能 对 表示 标准 差 相对 于 平均 数 大 小 的 描述 统计 量 感 兴趣 。 这 一 量度 称 为 标准 差 系 数 (co- 
efficient of variation) 2 ， 它 通常 表示 为 百分数 。 







对 于 班级 大 数 数据 ， 我 们 知道 样本 平均 数 为 44， 样 本 标准 差 为 8， 因 此 标准 差 系数 为 [ (8/44) x100]% = 

18. 2% 。 也 就 是 说 ， 标 准 差 系数 告诉 我 们 ， 样 本 标准 差 是 样本 平均 数 的 18.2% 。 对 于 起 薪 数 据 ， 样 本 平均 数 为 3 940， 

样本 标准 差 为 165. 65 ， 因 此 标准 差 系数 为 [ (165. 65/3 940) x 100 ]% =4.2% ， 它 说 明 样 本 标准 差 仅 为 样本 平均 数 的 

4.2% 。 一 般 地 ， 在 比较 具有 不 同 标准 差 和 不 同 平均 数 的 变量 的 变异 程度 时 ， 标 准 差 系数 是 一 个 很 有 用 的 统计 量 。 
注释 和 评论 

1. 统计 软件 包 和 电子 表格 能 用 来 计算 本 章 所 讲述 的 描述 统计 量 。 将 数据 输入 工作 表 以 后 ， 通 过 使 用 一 些 简单 的 
命令 就 能 够 产生 所 需要 的 结果 。 在 本 章 末 的 三 个 附录 中 ， 我 们 将 演示 如 何 利用 Minitab 、Excel 和 StatTools 来 
计算 描述 统计 量 。 

2. 标准 差 通常 用 来 度量 与 股票 和 股票 基金 投资 相关 的 风险 (Morningstar website，2012 年 7 月 21 日 )。 它 给 出 了 
月 回报 率 如 何 围绕 长 期 平均 回报 率 波 动 状况 的 度量 。 

3. 当 使 用 计算 器 计算 方差 和 标准 差 时 ， 对 样本 平均 数 % 和 平方 离 差 (x, -2Z)? 进行 四 会 五 入 处 理 ， 可 能 会 引起 方 
差 或 标准 差 的 计算 误差 。 为 了 减少 全 入 误差 ， 我 们 建议 在 计算 的 中 间 步 又 至 少 保 留 6 位 有 效 数字 ， 而 所 得 的 
方差 或 标准 差 可 以 保留 少 一 些 的 位 数 。 

4. 计算 样本 方差 的 另外 一 个 公式 为 

2 Dw: -nx 
nl 





式 中 ， 卫 好 = 好 十 好 二 二 好。 
5. 平均 绝对 偏差 (MAE) 是 另 一 种 变异 程度 的 度量 将 每 个 观察 值 与 平均 值 之 间 的 差异 绝对 值 求 和 再 除 以 观测 
值 的 个 数 计算 得 出 。 对 于 一 个 容量 为 严 的 样本 ，MAE 的 计算 公式 如 下 : 


本 入 | x, -xz| 


MAE 


对 于 第 3.1 节 的 班级 人 数 数据 , x=， 卫 |x; -*| =28， 因 此 MAE =28/5 =5.6。 在 第 17 章 ， 你 可 以 进 一 
步 学 习 MAE 和 其 他 变异 程度 的 度量 。 






> ”和 害 算 下列 档 述 统计 量 ; 
24. 考虑 数据 值 为 10，20, 12，17 和 16 的 样本 ， 计 算 方 a 极 差 。 b. 方差 。 
差 和 标准 差 c. 标准 差 。 d 标准 差 系数 。 
应 用 \ 28. 澳大利亚 公开 赛 是 每 年 第 一 个 举行 的 职业 网 球 四 大 


六 26. 一 名 保龄球 手 在 六 局 比赛 中 的 得 分 为 182，168， 
184，190，170 和 174。 用 这 些 数 据 作 为 一 个 样 未 ， 满员 赛事 。 维 多 利 亚 ， 阿 扎 伦 卡 击败 玛 利 亚 ， 莎 拉 


名 ”标准 差 系数 是 对 变异 程度 的 相对 度量 ， 它 衡量 标准 差 相 对 于 平均 数 的 大 小 。 
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波 娃 赢得 了 2012 年 澳大利亚 公开 赛 女 子 单 打 冠 军 Clark 经 销 商 的 交 货 时 间 : 
( 《华盛顿 邮 报 )，2012 年 1 月 27 日 )。 在 锦标 赛 期 5 友 1 Hlal WW 7 ~ i 2 
间 ， 阿 扎 伦 卡 的 发 球速 度 达 到 每 小 时 178 公里 。 下 用 极 差 和 标准 差 来 证 明 前 面 的 观察 结果 : Dawson 
面 列 出 了 2012 年 澳大利亚 公开 赛 发 球速 度 前 20 名 的 供应 公司 的 交 货 时 间 更 一 致 和 更 可 靠 。 
女子 单打 选手 。 32. 美国 零售 业 联 盟 报告 大 学 一 年 级 学 生 比 其 他 年 级 
发 球速 度 发 球速 度 的 于 寺 入 大 目 上 花 货 雪 多 ( 《今日 美国 》， 
(公里 /小 时 ) (公里 /小 时 ) 2006 年 8 月 4 目 )。25 名 一 年 级 学 生 和 20 名 四 年 
S 威廉 姆 斯 191 179 pe 
S_ 利 斯 基 i i 级 学 生 在 上 学 上 花费 的 样本 数据 存在 名 为 BackToS- 
M, 凯 其 187 178 chool 的 文件 中 。 
L 夏 迪 嘉 187 178 » i i 
7 a. 每 个 年 级 在 上 学 上 花费 的 均值 是 多 少 ? 这 是 否 
I 汉 艾 顿 181 178 与 美国 零售 业 联 盟 的 报告 一 致 ? 
> Es oy 者 b. 每 个 年 级 花费 的 极 差 是 多 少 ? 
P 犀 门 蒂 尔 179 177 c. 每 个 年 级 花费 的 四 分 位 数 间距 是 多 少 ? 
N. 佩 特 洛 娃 179 177 d， 每 个 年 强 花 费 的 标准 差 是 多 少 ? 
e. 在 花费 上 一 年 级 学 生 和 四 年 级 学 生 哪 个 变 蜡 


a. 计算 发 球速 度 的 平均 数 、 方 差 和 标准 差 。 估量 
b. 由 2011 年 温 布尔 登 锦 标 赛 发 球速 度 前 20 名 的 女 i a 
子 单打 选 所 组 成一 个 类 他 的 翌 示 本 生 汉 末 过 站， “下 症 的 IE 的 队员 到 0.25 美里 


的 样 末 平 汉族 筋 每 直 时 12 5 公里， 方差 和 标准 和 1 美里 的 时 间 ( 尘 往 分钟)。 
差分 布 为 33.3 和 5.77。 讨 论 澳大利亚 公开 赛 和 温 0. 25 英里 的 时 间 : 0,92 0.98 1.04 0.90 0.99 
布尔 登 女子 锦标 赛 发 球速 度 之 间 的 差异 。 1 英里 的 时 间 : 4.52 4.35 4.60 4.70 4.50 
30. 下 面 的 数据 用 于 绘制 直方 图 ， 这 些 数据 分 别 是 一 位 教练 看 到 这 个 的 样本 后 认为 ， 跑 0.25 英 
Dawson 供应 公司 和 本 C. Clark 经 销 商 完成 订单 所 需 里 的 时 间 更 具有 一 致 性。 用 标准 差 和 标准 差 系数 来 
的 时 间 ( 见 图 3-2)。 汇总 数据 的 变异 性 。 标 准 差 系数 是 否 说 明教 练 的 说 
Dawson 供应 公司 的 交 货 时 间 : 法 成 立 。 


0, m9 OS 0— A0710 


3.3 分 布 形 态 、 相 对 位 置 的 度量 以 及 异常 值 的 检测 


我 们 已 经 讲述 了 几 种 对 数据 位 置 和 变异 程度 的 度量 方法 ， 但 对 分 布 形 态 的 度量 往往 也 是 重要 的 。 在 第 2 章 
中 ,我 们 注意 到 ， 直 方 图 对 分 布 的 形态 提供 了 一 种 很 好 的 图 形 描 述 。 分 布 形态 的 一 种 重要 的 数值 度量 被 称 为 偏 度 


(skewness ) 。 


3. 3. 1 分 布 形 态 


图 3-3 是 根据 相对 频数 分 布 绘制 的 4 个 直方 图 。 图 3-3a 和 图 3-3b 中 的 直方 图 呈现 一 定 程度 的 偏 态 ， 图 3-3a 的 直 
方 图 是 左 偏 ， 它 的 偏 度 为 -0.85; 图 3-3b 的 直方 图 是 右 偏 ， 它 的 偏 度 为 +0.85。 图 3-3c 的 直方 图 是 对 称 的 ， 它 的 偏 
度 为 0。 图 3-3d 的 直方 图 严重 右 偏 ， 它 的 偏 度 为 1 62。 用 来 计算 偏 度 的 公式 有 些 复杂 ,但 是 使 用 统计 软件 很 容易 
计算 偏 度 。 对 于 左 偏 的 数据 ， 偏 度 是 负数 ; 对 于 右 偏 的 数据 ， 偏 度 是 正 值 。 如 果 数 据 是 对 称 的 ， 则 偏 度 为 0。 

对 于 一 个 对 称 的 分 布 ， 平均 数 和 中 位 数 是 相等 的 。 当 数据 的 偏 度 是 正 值 时 ， 通 常平 均 数 比 中 位 数 要 大 ; 当 数 
据 的 偏 度 是 负 值 时 ， 通 常平 均 数 比 中 位 数 要 小 。 用 于 绘制 图 3-3d 中 直方 图 的 数据 是 消费 者 在 一 家 妇女 服饰 店 购物 
的 金额 。 平 均 购物 金额 是 77. 60 美元 ， 中 位 数 是 59. 70 美元 。 少 数 较 大 的 购物 金额 将 平均 数 拉 大 ， 但 中 位 数 不 受 


人 


i 
日 。 计 算 样本 数据 偏 度 的 公式 为 : 偏 度 =75 一 1] tn-37 (一 ) 


坟 
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影响 。 当 数据 严重 偏离 时 ， 中 位 数 是 位 置 的 首选 度量 . 


0.35 偏 度 =-0.85 





a) 适度 左 偏 b) 适度 右 偏 
0.3 偏 度 =0 04 偏 度 .= 1.62 





c) 对 称 d) 严重 右 偏 
图 :3-3 ”四 个 呈现 不 同 偏 度 的 分 布 的 直方 图 


3. 3.2 ”工分 数 

对 一 个 数据 集 ， 除 子 位 置 、 变 蜡 程度 和 形态 的 度量 外 ， 我 们 还 对 数据 集中 的 数值 的 相对 位 置 感 兴趣 。 相 对 位 
置 的 度量 值 能 帮助 我 们 确定 一 个 特殊 的 数值 忠平 均 数 有 多 远 。 

利用 平均 数 和 标准 差 ， 我 们 可 以 确定 任何 观察 值 的 相对 人 位置。 假设 我 们 有 一 个 二 个 观测 值 x ，x, ，…，x, 的 
样本 。 并 且 假 设 样本 平均 数 * 和 样本 标准 差 * 已 经 被 计算 出 来 。 与 任何 一 个 数值 x 有 关 的 另 一 个 数值 称 为 x, 的 
Z- 分 数 (z-seore)。 式 (3-11) 是 计算 每 个 x 的 z- 分 数 的 公式 。 


Si he)! ww 了 = JE BR 二 i - 4 ge 有 2 i 辣 
n > pM Me | | b> sh 村， 年 本 全 站 A 和 .名 天 < a 六 了 i 1 | 
= 0 1 Pd Je 、 Pa, 
* 省 se 人 Pa 他 -ER "站 | 
上 - 站 | | 





的 二 分 数 ; 区 为 样本 平均 数 ; s 为 样本 标准 差 。 


wn 
WN 


z- 分 数 往往 被 称 为 标准 化 数值 。z- 分 数 z;,， 能 被 解释 为 %; 与 平均 数 x 的 距离 是 z, 个 标准 差 。 例如，z, =1. 2， 
表示 % 比 样本 平均 数 大 1.2 个 标准 差 。 类 似 地 ， 有 w= -0.5， 表示 x; 比 样 本 平均 数 小 0,5 或 1/2 个 标准 差 。 当 观察 
值 大 于 平均 数 时 ，z- 分 数 将 大 于 零 ; 当 观 察 值 小 于 平均 数 ，z- 分 数 将 小 于 零 。z- 分 数 等 于 零 ， 则 表示 观察 值 等 于 平 
均 数 。 

任何 观测 值 的 -分数 都 被 认为 是 对 数据 集中 观测 值 相 对 位 置 的 量度 。 因 此 ， 两 个 不 同 数据 集 的 观测 值 具有 相 
同 的 z- 分 数 ， 则 可 以 说 它们 具有 相同 的 相对 位 置 ， 因 为 它们 与 平均 数 的 距离 有 相同 个 数 的 标准 差 。 

表 3-5 中 计算 了 第 3. 1 节 申 班级 人 数 数据 的 z- 分 数 “。 我 们 已 知 样本 平均 数 *= 和 ,样本 标准 差 s=8。 第 5 个 
观测 值 的 = 分 数 为 -1.50，、 说 明 它 距离 平均 数 最 远 ， 且 比 平均 数 小 1. 50 个 标准 差 。 图 3-4 给 出 了 班级 人 数 数据 的 


日 一 个 变量 的 数值 转换 成 -分数 的 过 程 常常 被 称 为 z 变换 。 
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打点 图 ， 在 打点 图 坐标 轴 下 方 有 相对 应 的 x- 分 数 的 图 形 表示 。 





表 3-5 班级 人 数 数据 的 z- 分 数 3 
、 ” 搁 EC x eh - 一 - 班级 人 数 x 
班级 人 数 (Xi) 平均 数 的 离 差 (Xi 一 Xx) 二 分 数 | = 32 
Fo I 
46 2 2/8= (0.25 T=44 
54 10 1078 三 1.25 四 @ 本 i 
-1.5 -0.25 0.25 1.25 
42 = 六 -278 = -0.25 t 
46 2 2/8= 0.25 于 
et 图 3-4 ”显示 班级 人 数 数 据 和 z- 分 数 的 打点 图 


3. 3. 3 切 比 雪 夫 定 理 


切 比 雪夫 定理 (Chebyshev's theorem) 能 使 我 们 指出 与 平均 数 的 距离 在 某 个 特定 个 数 的 标准 差 之 内 的 数据 值 所 
占 的 比例 。 





当 z=2,，3 和 4 个 标准 差 时 ， 该 定理 的 一 些 应 用 如 下 : 
。 至 少 0.75 或 75% 的 数据 值 与 平均 数 的 距离 在 z=2 个 标准 差 之 内 。 

。 至 少 0. 89 或 89% 的 数据 值 与 平均 数 的 距离 在 z=3 个 标准 差 之 内 。 

。 至 少 0.94 或 94% 的 数据 值 与 平均 数 的 距离 在 z=4 个 标准 差 之 内 。 

应 用 切 比 雪夫 定理 的 一 个 实例 是 ， 假 设 某 大 学 100 名 学 生 商 务 统计 课 期 中 考试 的 平均 成 绩 为 70 分 ， 标 准 差 为 
5 那么 有 多 少 学 生 的 考试 成 绩 在 60 ~80 分 ? 有 多 少 学 生 的 考试 成 绩 在 58 ~ 82 分 ? 

对 于 60 ~80 分 的 考试 成 绩 ， 我 们 注意 到 60 比 平均 数 低 2 个 标准 差 ， 而 80 比 平均 数 高 2 个 标准 差 。 利 用 切 比 
雪夫 定理 ， 我 们 知道 至 少 有 0.75 或 75% 的 观测 值 与 平均 数 的 距离 在 2 个 标准 差 之 内 。 因 此 ， 至 少 有 75% 的 学 生 
考试 成 绩 在 60 ~ 80 分 。 

对 于 58 ~82 分 的 考试 成 绩 ， 我 们 看 到 ， (58 -70)/5 = -2.4， 表 明 58 比 平均 数 低 2.4 个 标准 差 ; 而 (82 - 
70)/5 = +2.4， 表 明 82 比 平 均 数 高 2. 4 个 标准 差 。 应 用 切 比 雪夫 
定理 上 且 z=2.4， 我 们 得 到 : 


(4 -je (1 ES ras 0 
即 至 少 有 82. 6% 的 学 生 考试 成 绩 在 58 ~ 82 分 。 


3. 3.4 经验 法 则 

切 比 雪夫 定理 的 优点 之 一 就 是 它 适用 于 任何 数据 集 而 不 论 其 数 A 
据 分 布 的 形状 。 的 确 ， 它 可 以 用 于 图 3:3 中 任何 一 个 分 布 。 但是， es ER 
在 实际 应 用 中 ， 人 们 发 现 许多 数据 集 具有 类 似 图 3-5 所 示 的 对 称 的 2355 对称 的 峰 形 或 钟 形 分 布 
峰 形 或 钟 形 苏 布 。 当 数据 被 认为 近似 于 这 种 分 布 时 ， 就 可 以 运用 经 验 法 则 (enpirical rale) 来 确定 与 平均 数 的 距 
离 在 某 个 特定 个 数 的 标准 差 之 内 的 数据 值 所 占 的 比例 。S 








日 切 比 雪夫 定理 要 求 z>1， 但 z 不 一 定 是 整数 。 
巴 ”经 验 法 则 以 正 态 分 布 为 依据 ， 该 分 布 将 在 第 6 章 中 予以 介绍 。 正 态 分 布 广泛 应 用 在 本 书 中 。 
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例如 ， 饶 装 液体 清洁 剂 是 在 生产 线 上 被 自动 地 灌注 装 满 ， 灌 注 的 重量 通常 具有 钟 形 分 布 的 特点 。 如 果 平 均 灌 
注重 量 是 16 笨 司 ， 标 准 差 是 0 25 笨 司 ， 我 们 利用 经 验 法 可 以 得 到 下 面 的 结论 : 

。 大 约 68% 的 镶 装 清洁 剂 的 灌注 重量 在 15. 75 ~ 16. 25 凑 司 之 间 ( 即 与 平均 数 的 距离 在 1 个 标准 差 之 内 ) 。 

。 大 约 95% 的 铅 装 清洁 剂 的 灌注 重量 在 15. 50 ~ 16. 50 准 司 之 间 ( 即 与 平均 数 的 距离 在 2 个 标准 差 之 内 ) 。 

。 几乎 所 有 的 钠 装 清洁 剂 的 灌注 重量 在 15. 25 ~ 16. 75 关 司 之 间 ( 即 与 平均 数 的 距离 在 3 个 标准 差 之 内 ) 。 





有 时 数据 集中 会 包含 个 或 多 个 数值 异常 大 或 异常 小 的 观测 值 ， 这 样 的 极端 值 称 为 异常 值 (outliers) 。 有 经 
验 的 统计 人 员 会 采取 一 定 的 步 又 来 识别 异常 值 “， 并 对 它们 仔细 上 鉴别。 异常 值 可 能 是 一 个 被 错误 记录 的 数据 值 ， 
如 果 是 这 样 ， 则 可 以 在 进一步 分 析 之 前 把 它 更 正 。 异 常 值 也 可 能 是 一 个 被 错误 包含 在 数据 集中 的 观测 值 ， 如 果 是 
这 样 ， 则 可 以 把 它 删 除 。 最 后 ， 蜡 常 值 也 可 能 就 是 一 个 反常 的 数据 值 ， 它 被 正确 地 记录 并 且 属 于 数据 集 。 这 种 情 

下 ， 它 应 该 被 保留 。 

标准 化 数值 (z- 分 数 ) 可 以 用 来 确认 异常 值 。 经 验 法 则 告诉 我 们 ， 对 于 具有 钟 形 分 布 的 数据 ， 几 乎 所 有 的 数 
据 值 与 平均 数 的 距离 都 在 3 个 标准 差 之 内 。 因 此 ， 在 利用 z- 分 数 来 检测 异常 值 时 ， 我 们 建议 把 z= 分 数 小 于 -3 或 
大 于 +3 的 任何 数值 都 视 为 异常 值 。 然 后 ， 对 它们 的 准确 性 进行 检查 ， 以 确定 它们 是 否 属于 数据 集 。 

”参见 表 3-4 中 班级 人 数 数据 的 z- 分 数 。 第 5 项 的 =- 分 数 为 -1.50， 表 明 它 距离 平均 值 最 远 。 但 是 ， 这 个 标准 
化 数值 仍 在 判定 异常 值 的 界限 -3 到 +3 之 内 。 因 此 ，z- 分 数 不 能 表明 ， 在 班级 人 数 数 据 中 存在 异常 值 。 

确定 异常 值 的 另 一 种 方法 是 以 第 一 四 分 位 数 和 第 三 四 分 位 数 (Q 和 .Q,) 以 及 四 分 位 数 间距 (IQR) 为 依据 。 
利用 这 种 方法 ， 我 们 首先 计算 如 下 的 下 线 和 上 限 : 

下 限 = 0 -1.5 x IQR 
上 限 = 二 ,二 1.5 x 0R 

如 果 一 个 观测 值 的 数值 小 于 下 限 或 大 于 上 限 ， 则 被 归 类 为 异常 值 8 。 对 于 表 3-1 的 起 始 月 薪 数 据 ，0Q, =3 465， 

0, =3 600 号 ，1OR =135。 则 下 限 和 上 限 为 
3 465 一 人 5X 135 =.32625 
3 600 +1.5 x135 = 3'802.5 

观看 表 3-1 中 的 数据 ， 我 们 看 到 起 薪 数 据 的 观测 值 没有 小 于 下 限 3 262. 5。 但 是 ， 有 一 个 起 薪 3 925 大 于 上 限 

3 802.5。 因 此 ， 使 用 这 种 确定 异常 值 的 方法 ，3 925 被 认定 为 异常 值 。 





1 切 此 雪夫 定理 可 应 用 于 任何 数据 集 ， 并 能 够 估计 与 平均 数 在 一 定 个 数 的 标准 差 之 内 的 最 少数 量 的 数据 项 。 如 果 已 
知 数据 集 过 似 圣 现 钟 形 分 布 ， 则 有 更 多 的 数据 项 在 此 范围 之 内 。 例 如 ， 经 验 法 则 告诉 我 们 ， 大 约 有 95% 的 数据 
值 与 平均 数 的 距离 在 2 个 标准 差 之 肉 ; 而 切 比 雪夫 定理 仅仅 告诉 我 们 ， 至 少 有 5% 的 数据 项 在 此 范围 之 内 。 


日 ”在 以 数据 分 析 为 依据 作出 决策 之 前 ， 检 测 异 常 值 是 有 意义 的 。 在 记录 数据 和 将 数据 输入 计算 机 时 ， 经 常会 有 误差 。 异 常 值 并 非 都 要 
删除 ， 但 它们 的 精确 度 和 适应 性 应 予以 核实 。 
晶 ”用 第 一 和 第 三 四 分 位 数 以 及 四 分 位 数 间距 确定 异常 值 的 方法 ， 不 必 与 依据 :- 分 数 小 于 -3 或 大 于 3 的 方法 相同 。 可 选用 一 种 或 两 种 


方法 。 
生 原 书 上 此 处 与 下 面 的 下 限 和 上 限 都 有 误 ， 翻 译 版 已 更 正 。 
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2. 在 对 数据 集 进行 分 析 之 前 ， 统 计 人 员 经 常会 对 数据 进行 各 种 检查 ， 以 确保 其 有 效 性 。 在 大 型 研究 中 ， 在 记 
录 数 据 或 将 数据 输入 计算 机 时 往往 会 发 生 误 差 。 检测 异 常 值 是 检查 数据 有 效 性 的 一 个 工具 。 





方法 

36. 考虑 平均 数 为 3500， 标 准 差 为 100 的 一 个 样本 ， 数 据 
值 为 520，650，500，450 和 280 的 z- 分 数 是 多 少 ? 

38. 假设 数据 具有 钟 形 分 布 ， 其 平均 数 为 30， 标 准 差 
为 5。 利 用 经 验 法 则 来 确定 在 下 列 范围 之 内 的 数据 
所 占 的 比例 。 
a 20~40 

应 用 

40. 美国 能 源 信 息 署 报告 ， 每 加 仓 普通 汽油 的 平均 零 
售 价 为 3.43 美元 (Energy Information Administra- 
tion，2012 年 7 月 )。 假 设 每 加 仓 汽 油 的 零售 价 具 
有 和 钟 形 分 布 ， 标 准 差 为 0.10 美元 。 
a 每 加 仑 普通 汽油 的 零售 价 在 3.33 ~3.53 美元 的 


b. 15 ~ 45 cc 23 43435 


比例 是 多 少 ? 

b. 每 加 仑 首 通 汽油 的 零售 价 在 3.33 ~3.63 美元 的 
比例 是 多 少 ? 

c. 每 加 仑 普通 汽油 的 零售 价 超 过 3.63 美元 的 比例 
是 多 少 ? 


42. 在 加 利 福 尼 亚 州 ， 许 多 家 庭 用 后 院 小 屋 建 造 家 庭 
办 公 室 、 艺 术 工 作 室 和 业余 爱好 的 储藏 室 。 单 个 木 


制 的 后 院 建 筑 物 的 平均 价格 为 3 100 美元 。 假 设 标 


准 差 为 1200 美元 。 

a. 后 院 建 筑 物 的 成 本 为 2 300 美元 的 z- 分数 是 
多 少 ? 

b. 后 院 建 筑 物 的 成 本 为 4 900 美元 的 zs- 分 数 是 
多 消 ? 


3.4 五 数 概括 法 和 箱 形 图 


pv ve TE, ew HT WH -A i "2 
yy ya et ~ A 
“ma Re ) * -% 
me A a > 【 
Wr 4 bi ye | 
Wn 重 ， yep 


c. 解释 (a) 和 (b) 中 的 z- 分 数 ， 对 它们 是 否 都 
被 认为 是 异常 值 进 行 评价 。 

d. 在 加 利 福 尼 亚 州 的 Albany 建造 后 院 小 屋 办 公 室 
的 价格 为 13 000 美元 。 这 个 建筑 物 是 否 被 认为 
是 异常 值 ? 为 什么 ? 


.由 10 支 NCAA 大 学 篮球 队 组 成 的 一 个 样本 ， 提 供 


的 数据 如 下 。 
获胜 队 ”获胜 队 得 分 ”失败 队 ”失败 队 得 分 得 分 差 

Arizona 90 Oregon 66 24 
Duke 85 Georgetown 66 19 
Florida State 75 Wake Forest 70 5 
Kansas 78 Colorado 7 21 
Kentucky 71 Notre Dame 63 8 
Louisvile 65 Tennessee 62 3 
Oklahoma State 72 Texas 66 6 
Purdue 76 Michigan State 70 6 
Stanford 77 Southern Cal 67 10 


Wisconsin 76 Tllinois S56 20 


a. 计算 获胜 队 得 分 的 平均 数 和 标准 差 。 

b. 假设 所 有 NCAA 比赛 中 获胜 队 的 得 分 具有 钟 形 
分 布 。 用 (a) 计算 的 平均 数 和 标准 差 ， 估计 所 
有 NCAA 比赛 中 获胜 队 得 分 在 84 分 及 以 上 的 比 
例 ; 估计 所 有 NCAA 比赛 中 ， 获 胜 队 得 分 超过 
90 分 的 比例 。 

c. 计算 得 分 差 的 平均 数 和 标准 差 ， 得 分 差 数 据 是 
否 包含 异常 值 ? 请 解释 。 


以 汇总 统计 为 依据 的 汇总 统计 量 和 易 画 的 图 形 ， 可 以 用 来 快速 汇总 大 量 数据 。 本 节 ， 我 们 将 演示 如 何 使 用 五 


数 概括 法 和 箱 形 图 来 确定 一 个 大 的 数据 集 的 几 个 特征 。 
3.4. 1 五 数 概括 法 


在 五 数 概括 法 (five-number summary) 中 ,使 用 下 面 五 个 数 来 汇总 数据 : 


(1) 最 小 值 

(2) 第 二 四 分 位 数 (0,) 
(3) 中 位 数 (0Q,) 

(4) 第 三 四 分 位 数 (0,) 
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(5) 最 大 值 
实施 五 数 概括 法 首先 将 数据 按 升序 排列 ， 然 后 确定 最 小 值 、 三 个 四 分 位 数 和 最 大 值 。 对 表 3-1 中 的 12 个 商学 
院 毕业 生 的 起 始 月 薪 数 据 ， 再 次 按照 升序 排列 如 下 : 


710 3755 3850 | 3880 3880 3890 | 3920 39%40 3950 | 4050 4130 4325 
Q, =3 865 0Q, =3 905 0, =4 000 
(中 位 数 ) 


在 3. 1 节 中 我 们 已 经 计算 了 中 位 数 为 3905， 四 分 位 数 Qi =3 865 和 Q@ =4000。 观 察 上 述 数 据 ， 可 知 最 小 值 为 
3710， 最 大 值 为 4325。 于 是 ， 起 薪 数 据 的 五 数 概括 为 : 3710，3 865，3905, 4000, 4325。 大 约 有 1/4 或 25% 的 
观测 值 在 五 数 概括 法 的 相 邻 两 个 数 之 间 。 


3.4.2 箱 形 图 

箱 形 图 (box plot) 是 基于 五 数 概括 法 的 数据 图 形 汇 总 。 “绘制 箱 形 图 的 关键 是 计算 四 分 位 数 间 距 IOR = 0, - 
01。 图 3-6 是 起 始 月 薪 数 据 的 箱 形 图 。 绘 制 箱 形 图 的 步骤 如 下 。 

(1) 画 一 个 箱 体 ， 其 边界 分 别 是 第 一 四 分 位 数 和 第 三 四 分 位 数 。 对 于 起 始 月 薪 数 据 ，Q@, =3 865，0, =4 000。 
这 个 箱 体 包含 了 中 间 的 50% 的 数据 。 

(2) 在 箱 体 上 中 位 数 的 位 置 画 一 条 垂 线 (对 起 薪 数 据 ， 中 位 数 为 3 905 ) 。 

(3) 利用 四 分 位 数 间距 IQR = 0, - Q, ， 设 定 界限 在 @, 左 侧 的 1.5 个 I0R 处 和 在 Q, 右 侧 的 1.5 个 IOR 处 。 对 
起 始 月 薪 数 据 ，IQR = 0, - 0, =4 000 -3 865 = 135。 因 此 ， 界 线 分 别 为 ; 3 865 -1.5 x135 =3 662.5 和 4 000 + 
1.5x135 =4202.5。 界 线 以 外 的 数据 被 认为 是 异常 值 。 

(4) 图 3-6 中 的 横 线 称 作 触须 线 (whisker) 。 触 须 线 从 箱 体 的 边界 一 直 画 到 步骤 3 计算 出 的 界线 以 内 的 原始 
数据 的 最 大 值 和 最 小 值 处 。 触 须 线 的 两 个 端点 是 3710 和 4 130 薪金 值 。 

(5) 最 后 ， 每 个 异常 值 的 位 置 用 符号 * 来 标 出 。 在 图 3-6 中 ,我 们 看 到 有 一 个 异常 值 4 325 。 
中 位 数 9, 





上 限 


-| he 
1,35(10R) 1.5(1OR) 
800 4 000 


3 400 3 600 3 
图 3-6 显示 下 限 和 上 限 的 起 薪 数 据 的 箱 形 图 


在 图 3-6 中 ， 我 们 包括 表示 下 限 和 上 限 位 置 的 线条 。 画 这 些 线 是 用 来 说 明 如 何 计算 界限 值 以 及 它们 的 位 置 所 
在 。 虽 然 总 是 需要 计算 界限 ， 但 通常 情况 下 ， 箱 形 图 中 并 不 画 出 它们 。 图 3-7 是 起 薪 数 据 箱 形 图 的 一 般 形 状 。 


4200 4 400 








3 3 600 3 800 4000 4200 4400 
图 3-7 月 起 薪 数 据 的 箱 形 图 
为 了 比较 商学 院 各 专业 毕业 生 的 月 起 薪 情 况 ， 选 择 了 111 名 新 近 毕 业 的 学 生 组 成 一 个 样本 ， 记 录 每 一 名 毕业 


旦 箱 型 图 提供 了 数据 集 几 个 特征 的 方便 直观 地 显示 。 
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生 的 专业 和 月 起 薪 。 图 3-8 是 会 计 、 金 融 、 信 息 系 统 、 管 理 和 市 场 营销 专业 的 Minitab 箱 形 图 。 注 意 专业 在 横 轴 
上 ， 每 一 个 箱 形 图 出 现在 相对 应 专业 的 纵 轴 上 。 在 对 两 个 或 多 个 组 进行 对 比 时 ， 以 这 种 方式 展示 箱 形 图 是 一 个 很 
好 的 图 形 技术 。 


6 000 





2000 
会 计 金融 信息 系统 管理 市 场 营销 


商科 专业 
图 3-8 各 专业 月 起 薪 的 Minitab 箱 形 图 


对 于 图 3-8 各 专业 月 起 薪 的 箱 形 图 ， 你 能 得 出 怎样 的 观测 结果 ? 特别 地 ， 我 们 注意 到 : 

。 会 计 专业 的 起 薪 较 高 ; 而 管理 和 市 场 营 销 专业 的 起 薪 较 低 。 

。 根据 中 位 数 ， 会 计 、 信 息 系统 有 相似 和 较 高 的 中 位 数 ， 金 融 次 之 ， 而 管理 和 市 场 营销 显示 有 较 低 的 中 位 数 。 
。 在 会 计 、 金 融和 市 场 营 销 专业 中 存在 高 起 薪 的 异常 值 。 

。 金融 起 薪 的 变异 性 最 小 ， 会 计 起 薪 的 变异 性 最 大 。 

基于 这 些 箱 形 图 ， 也 许 你 可 以 看 到 更 多 的 解释 。 


注释 和 评论 


1. 探索 性 数据 分 析 的 一 个 优点 就 是 使 用 简便 ， 且 只 需 进行 少量 的 数学 计算 。 我 们 只 需要 简单 地 将 数据 按 升序 排 
列 ， 就 可 以 确定 五 数 概括 法 中 的 五 个 数值 。 然 后 ,我 们 就 能 绘制 箱 形 图 ， 而 不 必 计 算数 据 的 平均 数 和 标准 差 。 

2, 在 附录 3A， 我 们 将 演示 如 何 使 用 Minitab 来 绘制 起 薪 数 据 的 箱 形 图 。 这 样 得 到 的 箱 形 图 看 起 来 就 像 图 3-7 
的 那个 箱 形 图 ， 只 是 方向 旋转 了 90°。 










名 次 男子 女子 
方法 128. 40 


46. 考虑 数据 值 为 27，50，20，15,, 30，34，28 和 25 
的 一 个 样本 。 用 五 数 概括 法 来 汇总 数据 。 

六 48. 用 五 数 概 括 汇 总 数据 : 5,，15, 18，10,，8，12,， 
16，10 和 6， 并 绘制 箱 形 图 。 


应 用 


50. 每 年 1 月 在 佛罗里达 州 那不勒斯 举行 半 程 马拉松 比 
赛 。 比 赛 吸 引 全 美 以 及 世界 各 国 的 顶级 运动 员 。 
2009 年 1 月 有 22 名 男子 和 31 名 女子 参加 了 19 ~ 
24 岁 年 龄 组 的 比赛 ， 比 赛 成 绩 (单位: 分 ) 如 右 
所 示 (Naples Daily,，2009 年 1 月 19 日 )。 


人 
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a 佐治 亚 州 Marietta 的 George Towett 获得 男子 的 第 
一 名 ,佛罗里达 州 Gainesville 的 Lauren Wald 获 
得 女子 的 第 一 名 。 上 比较 男子 和 女子 第 一 名 的 成 
绩 ， 如 果 53 名 男女 运动 员 在 一 组 比赛 ，Lauren 
Wald 将 是 第 几 名 ? 

b. 男女 运动 员 成 绩 的 中 位 数 是 多 少 ? 根据 中 位 数 ， 
对 男女 运动 员 的 成 绩 进 行 比较 。 

c. 分 别 用 五 数 概括 法 汇总 男女 运动 员 的 成 绩 。 

d. 每 个 组 有 异常 值 吗 ? 

e. 绘制 两 组 的 箱 形 图 。 男 子 运动 员 还 是 女子 运动 
员 比赛 成 绩 的 变异 程度 更 大 ? 请 解释 。 

《消费 者 报告 》 提 供 了 在 遍及 全 美 主要 大 都 会 地 区 

对 AT&T，Sprint，T-Mobile 和 Verizon 四 家 公司 移动 

电话 服务 的 客户 总 体 满意 度 得 分 数据 。 每 一 家 公司 

的 评分 反映 了 客户 对 诸如 费用 、 连 线 、 掉 线 、 静 电 

干扰 和 客户 支持 等 一 系列 因素 的 总 体 满意 度 。 满 意 

度 得 分 从 0 ~100, 0 表示 完全 不 满意 ，100 表示 完全 

满意 。20 个 大 都 会 地 区 的 四 家 移动 电话 服务 公司 的 

得 分 如 下 ( 《消费 者 报告 》，2009 年 1 月 ): 


大 都 会 地 区 AT&T Sprint T-Mobile Verizon 


亚特兰大 70 66 71 79 
波士顿 69 64 74 76 
芝加哥 71 65 70 7 
达拉斯 75 65 74 78 
丹佛 7 67 73 8， 
底特律 73 65 77 79 
杰克 逊 维尔 73 64 75 81 
拉 斯 维 加 斯 72 68 74 8] 
洛杉矶 66 65 68 78 
迈阿密 68 69 73 80 
明 尼 阿 波 利 斯 68 66 75 77 
费城 72 66 7 
菲尼克斯 68 66 76 81 
圣安东尼奥 75 65 75 80 
圣 和 迭 苹 69 68 72 79 
旧金山 66 69 73 75 
西雅图 68 67 74 77 
圣路易斯 74 66 74 79 
坦 帕 73 63 73 79 
华盛顿 72 68 71 76 


a. 首先 考虑 T-Mobile， 得 分 中 位 数 是 多 少 ? 

b. 用 五 数 概 括 法 汇总 T-Mobile 的 数据 。 

T-Mobile 有 异常 值 吗 ? 请 解释 。 

对 其 他 三 家 移动 电话 服务 公司 重复 做 (b) 和 (c)。 

. 在 一 张 图 上 绘制 出 四 家 移动 电话 服务 公司 的 箱 
形 图 。 对 四 家 公司 的 箱 形 图 进行 比较 ,讨论 比 
较 的 结果 。 根 据 客户 总 体 满意 度 ， 哪 家 是 《 消 


Se 


oD 


费 者 报告 》 推 荐 的 最 佳 移动 电话 服务 公司 ? 


54. 下 表 是 46 个 共同 基金 12 个 月 的 总 回报 率 数 据 


(Smart Money，2004 年 2 月 )。 


共同 基金 回报 率 (%) 
Alger Capital Appreciation 23,.3 
Alger LargeCap Growth 22.8 
Alger MidCap Growth 38,3 
Alger Small Cap 41.3 
AllianceBemstein Technology 40.6 
Federated American Leaders 15.6 
Federated Captial Appreciation 12.4 
Federated Equity- Income 上 性. 
Federated Kaufmann 到 
Federated Max-Cap Index 16.0 
Federated Stock 16.9 
Janus Adviser Int’l Growth 10.3 
Janus Adviser Worldwide 3.4 
Janus Enterprise 24.2 
Janus High- Yield i 
Janus Mercury 20.6 
Janus Overseas 11.9 
Janus Worldwide 4.1 
Nations Convertible Secuities 13.6 
Nations Int’] Equity 10,7 
Nations LargeCap Enhd. Core 13,2 
Nations LargeCap Index 13,3 
Nation MidCap Index 19.5 
Nations Small Company 21.4 
Nations SmallCap Index 24;5 
Nations Strategic Growth 10, 4 
Nations Value Env 10. 8 
One Group Diversified Equity 10.0 
One Group Diversified Int'] 10.9 
One Group Diversified Mid Cap 15, I 
One Group Equity Income 6.6 
One Group Int] Equity Index 13.2 
One Group Large Cap Growth 13.6 
One Group Large Cap Value 12.8 
One Group Mid Cap Growth 18.7 
One Group Mid Cap Value 11.4 
One Group Small Cap Growth 23.6 
PBHG Growth 273 
Putnam Europe Equity 20. 4 
Putnam TInt’] Capital Opportunity 36.6 
Putnam International Equity ZE 
Putnam Int’l New Opportunity 26, 3 
Strong Advisor Mid Cap Growth 23.7 
Strong Growth 20 > 陀 "， 
Strong Crowth JInv 23: 又 
Strong Large Cap Crowth 14. 5 


a. 这 些 共 同 基金 回报 率 的 平均 数 和 中 位 数 是 多 少 ? 
b. 第 一 四 分 位 数 和 第 三 四 分 位 数 各 为 多 少 ? 

c.， 用 五 数 概 括 法 汇总 数据 。 

d. 数据 是 否 包含 异常 值 ? 绘制 箱 形 图 。 
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3.5 两 变量 间 关 系 的 度量 


迄今 为 止 ， 我 们 已 经 介绍 了 在 同一 时 间 对 一 个 变量 数据 汇总 的 数值 方法 。 但 是 管理 者 或 决策 者 常常 更 关心 的 
是 两 个 变量 之 间 的 关系 。 在 本 节 我 们 将 介绍 描述 两 个 变量 间 关 系 的 度量 : 协 方差 和 相关 系数 。 

首先 ， 我 们 重新 考虑 第 2. 4 节 中 关于 旧金山 音像 设备 商店 的 例子 。 商 店 经 理想 确定 周末 电视 广告 播 出 次 数 与 
下 周 商店 销售 额 之 间 的 关系 。 表 3-6 中 是 销售 额 (单位 : 100 美元 ) 的 样本 数据 ， 有 10 个 观测 值 (n =10) ， 每 周 
一 个 观测 值 。 图 3-9 的 散 点 图 中 显示 二 者 是 正 相关 关系 ， 较 高 的 销售 额 (y) 对 应 着 较 多 的 广告 次 数 (x)。 事 实 
上 ， 散 点 图 提示 我 们 ， 可 以 用 一 条 直线 来 近似 表达 这 种 关系 。 在 下 面 的 讨论 中 ， 我 们 将 介绍 描述 两 变量 间 线 性 关 
系 度量 的 协 方差 (covariance)。 


表 3-6 音像 设备 商店 的 样本 数据 








周 次 电视 广告 数 x 销售 额 (100 美元 ) y 
1 2 50 
2 5 57 
3 1 41 
4 3 54 
5 4 54 
6 1 38 
0 1 2 3 4 | 
9 4 59 广告 次 数 
10 2 46 \ 
图 3-9 音像 设备 商店 的 散 点 图 
3.5;1 协 方 兰 


对 于 一 个 容量 为 的 样本 ， 其 观测 值 为 《x ，y,)，(%，7y,) ，…*，(%,，Y,)， 样 本 协 方差 的 定义 如 下 : 


一 






在 这 个 公式 中 ， 一 个 与 二 个 相对 应 。 我 们 区 每 个 “ 与 其 样本 平均 数 的 离 差 乘 以 对 应 的 y 与 其 样本 平 
均 数 了 的 离 差 ， 再 将 所 得 的 结果 加 总 ， 然 后 除 以 n -1。 

在 音像 设备 商店 问题 中 ， 为 了 度量 广告 次 数 * 与 销售 额 y 之 间 Rn 
线性 关系 的 强度 ， 我 们 利用 式 (3-12) 来 计算 样本 协 方差 。 (x - 





< a 所 * yr NX YYy (Xx) (yy) 
x) (7 -7) 的 计算 过 程 如 表 3-7 中 所 示 。 注 意 到 x =30/10 =3 并 且 
7=510/10 =51。 利 用 式 〈3-12) ,我 们 可 以 得 出 样本 协 方差 为 人 
s, = Su = WN = i 1 41 -= =i0 20 
= 2 3 54 0 3 0 
计算 容量 为 W 的 总 体 协 方差 的 公式 与 式 (3-12) 相似 。 但 是 我 4 54 | 3 3 
们 使 用 不 同 的 符号 ， 表 示 正 在 处 理 的 是 整个 总 体 。 1 招 =<2 -BB 26 
5 63 2 12 24 
3 48 0 一 3 0 
4 59 1 8 8 
条 = -5 5 
会计 30 510 0 0 99 


在 式 (3-13) 中 我 们 用 符号 ,表示 变量 x 的 总 体 平均 数 ， 用 符 | 
号 ,表示 变量 y 的 总 体 平均 数 ， 用 es 表示 容量 为 V 的 总 体 协 方差 。 ~ ” -1 


E(x;~%) (yi -7) 2 99 
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3. 5.2 协 万 差 的 解释 

为 了 有 助 于 对 样本 协 方差 进行 解释 ， 如 图 3-10 所 示 。 它 与 图 3-9 的 散 点 图 相同 ， 只 是 在 *=3 处 有 一 条 垂直 
虚线 ， 在 了 = 51 处 有 一 条 水 平 虚线 。 这 两 条 线 将 图 划分 为 四 个 
象限 。 第 I 象限 的 点 对 应 于 x 大 于 * 且 y; 大 于 y, 第 卫 象 限 的 
点 对 应 于 % 小 于 * 且 yy 大 于 了 3， 依 此 类 推 。 因 此 ，(%, - *) 





(y -7 了) 的 值 ， 在 第 I 象限 的 点 一 定 为 正 , 第 卫 象 限 的 点 为 3 
负 ， 在 第 于 象限 的 点 为 正 ， 第 他 象限 的 点 为 负 。 | 
如 果 s,, 的 值 是 正 的 ,那么 对 sw 的 值 影响 最 大 的 点 必然 在 第 I 
和 亚 象 限 。 因 此 ，s, 为 正 值 表示 x 和 y 之 间 存 在 正 的 线性 关系 -和 
也 就 是 说 ， 随 着 x 的 值 增加 ，y 的 值 也 增加 。 如 果 * 的 值 是 负 的 ， 广告 次 数 
则 对 *。 的 值 影响 最 大 的 点 在 第 I 和 第 V 象 限 。 因 此 ，s, 为 负 值 ， 则 图 3-10 音像 设备 商店 的 分 区 散 点 图 


表示 x 和 y 之 间 存 在 负 的 线性 关系 ; 也 就 是 说 ， 随 着 * 的 值 增加 ，y 的 值 减少 。 最 后 ， 如 果 各 点 在 四 个 象限 中 分 布 均匀 ， 
则 *。 的 值 将 接近 于 零 ， 这 表明 * 和 y 之 间 不 存在 线性 关系 。 图 3-11 显示 了 与 三 种 不 同类 型 的 散 点 图 相对 应 的 s* 值 。 
5 为 正 数 ， C 和 为 正 线性 关系 ) 5 近 仙 为 9 (x 和 y 无 线性 关系 ) 5 为 负数 : (x 和 为 负 线性 关系 ) 





图 3-11 样本 协 方差 的 解释 


再 次 参见 图 3-10， 我 们 可 以 看 到 音像 设备 商店 的 散 点 图 与 图 3-11 中 顶部 的 图 形 相 似 。 正 像 我 们 所 期 望 的 ， 样 
本 协 方差 s。 =11 表示 正 的 线性 关系 。 

从 上 面 的 讨论 中 可 以 看 出 ， 似 乎 协 方差 是 一 个 大 的 正 值 就 表示 强 的 正 线性 相关 关系 ， 一 个 大 的 负数 就 表示 强 
的 负 线性 相关 关系 。 但 是 ， 在 使 用 协 方差 作为 线性 关系 强度 的 度量 时 ， 一 个 问题 就 在 于 协 方差 的 值 依赖 于 * 和 y 
的 计量 单位 。 例 如 ， 假 设 我 们 要 研究 人 的 身高 «与 体重 y 的 关系 。 显 然 ， 无论 用 英尺 还 是 英寸 来 度量 身高 ， 二 者 
关系 的 强度 都 应 该 相同 。 但 是 ;如果 用 英寸 来 度量 身高 的 话 ， 我 们 计算 出 的 (x; -xz) 的 数值 将 比 用 英尺 度量 时 要 
大 得 多 。 因 此 ， 用 英寸 来 度量 身高 时 ， 式 (3-12) 中 的 分 子 荆 (x; -*) (7y; -7) 的 数值 会 更 大 ， 协 方差 也 随 之 变 
大 ， 而 事实 上 二 者 的 相关 关系 并 无 变化 。 为 了 避免 这 种 情况 ,我 们 将 使 用 相关 系数 (correlation coefficient) 对 两 
变量 间 的 相关 关系 进行 量度 。 


3. 5. 3 ”相关 系数 
对 于 样本 数据 ， 皮 尔 逊 积 和 矩 相关 系数 的 定义 如 下 。 


一 一 
册 


on E 
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式 (3-14) 表明 样本 数据 的 皮尔 偿 积 甜 相关 系数 《通常 简称 为 样本 相关 系数 ) 的 计算 方法 是 : 用 样本 协 方差 
除 以 x 的 标准 差 与 的 标准 差 的 乘积 。 

现在 让 我 们 来 计算 音像 设备 商店 的 样本 相关 系数 。 使 用 表 3-6 中 的 数据 ， 我 们 可 以 得 到 两 个 变量 的 样本 标 
准 差 。 


= 十 0.93 


a i 
站 
总 体 相 关系 数 用 希腊 字母 ps, 表示， 其 计算 公式 如 下 。 






样本 相关 系数 “r, 给 出 了 总 体 相关 系数 p, 的 一 个 估计 。 
3. 5. 4 “样本 相关 系数 的 解释 

首先 让 我 们 考虑 一 个 简单 的 样本 ， 以 说 明 完 全 正 线性 相关 的 概念 。 图 3-12 的 散 点 图 描述 了 下 列 样本 数据 x 和 
y 之 间 的 关系 。 
i ae EE | 10 z a 
i z Tr 30 | 50 


经 过 这 三 个 点 的 直线 显示 ,在 x 和 y 之 间 存在 完全 线性 关  ， 
系 。 为 了 应 用 式 (3-14) 来 计算 样本 相关 系数 ， 我 们 必须 先 计 。 $0 
算 s,s, 和 s,。 在 表 3-8 中 列 出 了 一 些 计算 过 程 。 利 用 表 3-8 





中 的 结果 ， 我 们 得 到 和 

Ee if ed, .200 _ 30 

Sy n-l 入 = | 

ee 原 、 人 

he nl “, 济 沪 wt 

-ss ID A 
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”5 x20 图 3-12， 描述 完全 正 线性 关系 的 散 点 图 
于是 我 们 看 到 样 相关 系数 的 值 为 ,区 


张 ， 样 本 相关 系数 rs 是 总 体 相关 系数 p。 的 点 估计 量 。 
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表 3-8 样本 相关 系数 的 计算 


Xi 多 Xi —X (Xi—xX)? yi~y (y=—y)” (%—X) {y=-y) 
5 10 25 -20 400 100 
10 30 0 0 0 0 0 
15 50 并 25 _20 400 100 
合计 30 90 0 50 0 800 200 
x=10 y=30 


一 般 地 ， 我 们 发 现 如 果 数 据 集中 所 有 的 点 都 在 一 条 斜率 为 正 的 直线 上 ， 则 样本 相关 系数 “的 值 为 +1; 也 就 是 
说 ， 样 本 相关 系数 的 值 为 +1 对 应 于 * 和 7 之 间 存 在 一 个 完全 正 线性 关系 。 如 果 数 据 集中 所 有 的 点 都 在 一 条 斜率 
为 负 的 直线 上 ， 则 样本 相关 系数 的 值 为 -1; 也 就 是 说 ， 样 本 相关 系数 的 值 为 -1 对 应 于 x 和 y 之 间 存 在 一 个 完全 
负 线 性 关系 。 

现在 我 们 假设 ， 某 个 数据 集 表 示 x 和 y 存在 一 个 正 的 线性 关系 ,但 不 是 完全 线性 的 。7,, 的 值 将 小 于 1， 表 示 在 
散 点 图 上 点 不 全 在 一 条 直线 上 。 当 随 着 数据 集中 的 点 越 来 越 偏离 完全 正 线性 关系 时 ，7, 的 值 就 变 得 越 来 越 小 。 当 
rs 等 于 零 时 ， 表 明 x 和 y 之 间 不 存在 线性 关系 ，r,, 的 值 接近 于 零 则 表明 弱 的 线性 关系 。 

对 于 音像 设备 商店 的 数据 ， 我 们 知道 7, =0.93。 因 此 ， 我 们 可 以 得 出 广告 次 数 和 销售 额 之 间 存 在 着 强 的 线性 
关系 。 更 具体 地 说 ， 广 告 次 数 的 增加 会 带 来 销售 额 的 增加 。 

最 后 ， 我 们 注意 相关 系数 提供 了 线性 但 不 是 因果 关系 的 一 个 度量 。 两 个 变量 之 间 较 高 的 相关 系数 ， 并 不 意味 
着 一 个 变量 的 变化 会 引起 另 一 个 变量 的 变化 。 例 如 ， 我 们 看 到 ， 饭 店 的 质量 等 级 和 代表 性 餐 价 是 正 相 关 的 。 但 
是 ， 简 单 地 增加 饭店 的 餐 价 并 不 会 提供 单调 的 质量 等 级 。 

1. 由 于 相关 系数 仅仅 度量 两 个 数量 变量 之 间 线 性 相关 关系 的 强度 ， 因 此 ， 当 两 个 变量 之 间 的 关系 是 非 线性 
时 ， 相 关系 数 可 能 接近 于 0， 表 明 没 有 线性 关系 。 例 如， 下 面 的 散 点 图 表明 在 过 去 100 天 中 室外 的 日 最 高 
气温 和 受 环境 控制 〈 供 暖和 制冷 ) 的 一 个 小 零售 商店 总 支出 的 关系 。 

这 些 数据 的 样本 相关 系数 7 = -0.007， 表 明 两 个 变量 之 间 没 有 线性 相关 关系 。 但 是 ， 散 点 图 给 出 了 
非 线 性 关系 的 很 直观 证 据 。 因 此 ， 我 们 可 以 看 到 随 着 室外 日 最 高 气温 的 增加 ， 由 于 需要 少量 暖气 ， 受 环境 
控制 的 总 支出 先 下 降 ， 然 后 由 于 需要 大 量 制冷 ， 总 支出 增加 。 


环境 控制 的 支出 〈 美 元 ) 





40 60 
室外 气温 ‘华氏 度 ) 
2. 虽然 在 评价 两 个 数量 变量 的 相关 关系 时 ， 相 关系 数 很 有 有 用， 其 他 度量 一 一 如 斯 皮尔 楼 等 级 相关 系数 
用 于 评价 至 少 有 一 个 变量 是 名 义 或 顺序 变量 的 两 个 变量 的 相关 和 系数。 我们 将 在 第 18 章 讨 论 斯 皮尔 曼 等 级 
相关 系数 。 





可 


@ ”相关 系数 的 范围 是 -1 ~ +1。 当 相关 系数 接近 于 -1 或 +1 时 ， 表 示 强 的 线性 关系 ,而 相关 系数 越 接近 于 0， 线 性 关系 也 越 弱 ， 
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和 -1 
,， 


方法 60. 道琼斯 工业 平均 指数 (DJIA) 和 标准 普尔 500 指 





56， 下 面 是 两 个 变量 的 5 次 观测 值 数 (S&P) 是 用 来 度量 股票 市 场 的 业绩 的 两 个 指 
数 。DJIA 是 以 30 家 大 公司 的 股票 价格 为 依据 ; 

一 S&P 500 是 以 500 家 公司 的 股票 价格 为 依据 。 如 果 

用 DJIA 和 S&P 500 度量 股票 市 场 的 业绩 ， 它 们 相 

a. 绘制 这 些 数 据 的 散 点 图 。 关 吗 ? 由 为 期 三 个 月 的 9 天 组 成 一 个 样本 ， 下 面 是 

b. 散 点 图 中 表明 和 和 Yy 之 间 存 在 何 种 关系 ? DJIA 和 S&P500 每 天 上 涨 和 下 跌 的 百分比 样本 数据 

c. 计算 并 解释 样本 协 方 差 。 (《 华 尔 街 日 报 》 2006 年 1 月 15 日 ~3 月 10 日 )。 


d. 计算 并 解释 样本 相关 系数 。 
应 用 S&P 500 |0.24 0.19 -0.910.08 -0.330.87 0.36 0.83 -0.16 
58. 运输 部 门 对 中 型 汽车 的 行驶 速度 和 油耗 进行 了 研 
究 ， 得 到 下 面 的 数据 。 


DJIA |0.20 0.82 -0.990.04 =Q 对 1.01 0.30 0.55 -0.25 





六 


绘制 散 点 图 。 

. 计算 这 些 数据 的 样本 相关 系数 。 

. 讨论 DJIA 和 S&P500 之 间 的 关系 。 在 得 到 每 天 
股票 市 场 业绩 的 一 般 印 象 之 前 ， 你 是 否 需 要 审 


计算 并 解释 样本 相关 系数 。 SN 


3.6 数据 仪表 板 : 增加 数值 度量 以 提高 有 效 性 


在 2.5 节 ， 我 们 给 出 了 用 于 描述 汇总 和 表述 数据 集 信息 的 图 形 显示 效用 的 数据 可 视 化 术语 的 简介 。 数 据 可 视 
化 的 目的 是 尽 可 能 有 效 和 清晰 地 传递 数据 的 重要 信息 。 数 据 可 视 化 工具 使 用 最 广泛 的 一 种 是 数据 仪表 板 。 数 据 仪 
表 板 是 一 个 直观 显示 的 集合 ， 这 个 直观 显示 以 易于 阅读 、 了 解 和 解释 的 方式 组 织 和 表述 用 于 监控 公司 或 机 构 业 绩 
的 信息 。 本 节 ， 我 们 演示 数值 度量 的 增加 如 何 能 提高 显示 整体 的 有 效 性 ， 来 延伸 数据 仪表 板 的 讨论 。 

关键 表现 指标 〈KPIs) (如 平均 数 和 标准 差 ) 数值 度量 的 增加 ， 对 数据 仪表 板 来 说 至 关 重 要 ， 因 为 数值 度量 
常常 提供 KPIs 评估 的 基准 和 目标 。 另 外 ， 数 据 仪表 板 也 常常 包括 含有 数值 度量 的 图 形 显示 ， 将 数值 度量 作为 显示 
的 一 个 组 成 部 分 。 我 们 必须 牢记 ， 数 据 仪 表 板 的 用 途 是 以 易于 阅读 、 了 解 和 解释 的 方式 提供 KPIs 信息 。 增 加 数值 
度量 和 利用 数值 度量 的 图 表 可 以 帮助 我 们 实现 这 些 目标 。 

为 了 说 明 数 据 仪表 板 中 数值 度量 的 使 用 ， 回 顾 为 了 介绍 数据 仪表 板 的 概念 ， 在 2.5 节 中 我 们 使 用 的 Grogan 石油 
公司 的 应 用 。Grogan 石油 公司 在 得 克 萨 斯 州 的 奥斯汀 (其 总 部 所 在 )、 休 斯 敦 和 达拉斯 这 三 个 城市 设 有 办 事 处 。Gro- 
gan 石油 公司 位 于 奥斯汀 办 事 处 的 信息 技术 (IT) 呼叫 中 心 处 理 员工 关于 软件 、 互 联网 和 电子 邮件 问题 等 与 计算 机 相 
关 问 题 的 呼叫 。 绘 制 监控 呼叫 中 心 表现 的 数据 仪表 板 如 图 3-13 所 示 。 这 个 仪表 板 的 重要 组 成 部 分 如 下 : 

。 仪表 板 左上 角 的 结构 条 形 图 展示 过 去 时 间 内 每 一 类 问题 (软件 、 互 联网 和 电子 邮件 ) 的 呼叫 次 数 。 

。 仪表 板 右 上 角 的 饼 形 图 显示 呼叫 中 心 员工 在 每 一 类 问题 或 没有 呼叫 工作 〈 空 闲 ) 所 用 时 间 的 比例 。 

。 对 每 一 个 超过 15 分 钟 之 前 收 到 的 未 被 解决 的 案例 ， 仪 表 板 中 间 左 侧 的 条 形 图 展示 了 这 些 未 被 解决 的 案例 

中 每 一 个 的 时 间 长 度 。 

。 仪表 板 中 间 右 侧 的 条 形 图 展示 了 办 事 处 休斯敦、 达拉斯 、 奥 斯 汀 ) 的 每 一 类 问题 的 呼叫 次 数 。 
仪表 板 底 部 的 直方 图 展示 了 当前 班次 所 有 被 解决 的 案例 所 用 时 间 的 分 布 。 

为 了 获得 呼叫 中 心 业绩 的 更 多 内 涵 ，Grogan 石油 公司 的 信息 技术 经 理 决 定 扩充 当前 的 仪表 板 ， 增 加 收 到 
每 一 类 问题 (电子 邮件 、 互 联网 和 软件 ) 呼叫 需要 解决 时 间 的 箱 形 图 。 另 外 ， 在 仪表 板 左下 部 分 增加 展示 解决 单 
个 案例 所 用 时 间 的 图 形 。 最 后 ， 信 息 技术 经 理 增 加 每 一 类 问题 的 汇总 统计 量 和 本 班次 前 几 小 时 中 每 小 时 的 汇总 统 
计量 的 显示 。 更 新 后 的 仪表 板 如 图 3-14 所 示 。 


Ep 


行驶 速度 (英里 /水 时 ) |30 50 40 55 30 25 60 25 50 55 
油耗 〈 英 里 /加 仑 ) 28 25 235330 21 3 .26° 突 
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图 3-13 Grogan 石油 公司 信息 技术 呼叫 中 心 最 初 的 数据 仪表 板 


信息 技术 中 心经 理 制 定 平均 10 分 钟 解决 一 个 案例 的 目标 业绩 水 平 或 基准 。 此 外 ， 中 心 决定 一 个 案例 的 解决 
时 间 超 过 15 分 钟 是 不 合格 的 。 为 了 反映 这 些 基准 ， 在 解决 单个 案例 所 用 时 间 的 图 和 收 到 每 一 类 问题 呼叫 需要 解 
决 时 间 箱 形 图 这 两 张 图 上 ， 都 增添 了 平均 目标 值 10 分 钟 的 黑色 横 线 和 最 大 可 接受 水 平 15 分 钟 的 红色 横 线 。 

图 3-14 仪表 板 中 的 汇总 统计 量 展示 : 一 个 电子 邮件 案例 的 平均 解决 时 间 为 4.6 分 钟 ， 一 个 互联 网 案例 的 平均 
解决 时 间 为 5. 4 分 钟 ， 以 及 一 个 软件 案例 的 平均 解决 时 间 为 5. 2 分 钟 。 因 此 ， 每 一 类 案例 的 平均 解决 时 间 都 比 目 
标 平 均 数 〈10 分 钟 ) 要 好 。 

查看 箱 形 图 ， 我 们 看 到 电子 邮件 案例 对 应 的 箱 形 图 比 其 他 两 类 案例 对 应 的 箱 形 图 要 “大 ”。 汇 总 统计 量 也 显示 电 
子 邮件 案例 解决 时 间 的 标准 差 比 其 他 类 型 案例 解决 时 间 的 标准 差 大 。 这 让 我 们 在 两 张 新 图 中 仔细 查看 电子 邮件 案例 。 
电子 邮件 案例 的 箱 形 图 有 一 条 延伸 到 15 分 钟 之 外 的 触须 线 ， 且 有 一 个 大 于 15 分 钟 的 异常 值 。 解 决 单个 案例 所 用 时 间 
图 (在 仪表 板 左 下 部 分 ) 展示 在 9:00 时 段 由 于 有 两 个 电子 邮件 呼叫 解决 时 间 比 目标 最 大 时 间 (15 分 钟 ) 要 长 。 

这 个 分 析 使 信息 技术 呼叫 中 心经 理 进一步 审查 为 什么 电子 邮件 案例 解决 时 间 比 互联 网 或 软件 案例 有 更 大 变异 
性 。 基 于 这 些 分 析 ， 信 息 技术 经 理 还 可 能 决定 审查 导致 这 两 个 超过 15 分 钟 才 被 解决 的 电子 邮件 案例 异常 大 的 解 
决 时 间 的 工作 情况 。 

解决 单个 案例 所 用 时 间 图 还 显示 当前 班次 第 一 小 时 时 有 段 内 收 到 的 许多 呼叫 解决 相对 较 快 ;图形 还 显示 整个 上 
午 案例 的 解决 时 间 逐 渐 增 加 。 这 可 能 是 由 于 在 本 班次 稍 后 时 间 有 生产 复杂 问题 的 趋势 ， 或 随时 间 推 移 而 堆积 的 呼 
叫 积压 。 尽 管 汇总 统计 量 瞳 示 在 9:00 时 段 提交 的 案例 解决 时 间 较 长 ， 解 决 单个 案例 所 用 时 间 图 显示 在 这 个 时 段 
上 报告 有 两 个 费时 的 电子 邮件 案例 和 一 个 费时 的 软件 案例 ， 这 可 以 解释 9:00 时 段 为 什么 比 本 班次 其 他 时 段 案 例 
的 平均 解决 时 间 要 长 。 总 之 ， 本 班次 报告 的 案例 一 般 在 15 分 钟 或 者 更 少 的 时 间 内 被 解决 。 
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Summary Statistics - Resolved Cases 
Cases Mean Median Std. Dev Hour Cases Mean Median Std Dev 
34 4.6 2.0 .6 8:00 22 3.5 2.0 3.7 
19 $.4 3.0 4.9 9:00 19 5.8 3.0 6.6 
23 $5.2 4.0 4.2 10:00 19 5.3 4.0 4.8 
11:00 9 6.9 6.0 5.1 
12:00 6 4.8 3 .9 


加 3-14 ”Grogan 石油 公司 信息 技术 呼叫 中 心 更 新 的 数据 仪表 板 
如 Grogan 石油 公司 的 数据 仪表 板 这 类 仪表 板 常常 是 互动 的 =。 例 如 ， 当 经 理 用 鼠标 或 触摸 屏 在 显示 上 将 光标 


定位 或 指向 显示 上 的 某 事 ， 如 解决 问题 的 时 间 、 收 到 呼叫 的 时 间 ， 以 及 个 人 和 所 报告 问题 的 位 置 这 些 附加 信息 将 
会 出 现 。 点 击 单个 项 目 也 可 以 在 个 别 情况 下 ， 带 给 用 户 一 个 新 的 分 析 水 平 。 





名 ”数据 仪表 板 的 互动 功能 定义 为 深化 ， 它 允许 用 户 存 取信 息 ， 并 且 越 来 越 详细 分 析 - 


78 商务 与 经 济 统计 





AAA 


本 章 里 我 们 介绍 了 几 种 能 用 来 汇总 数据 分 布 的 位 
置 、 变 并 程度 和 形态 的 描述 统 讨 量 。 与 第 2 章 介 绍 的 表 
格 和 图 形 方 法 不 同 ， 本 章 外 绍 的 量度 方法 是 依据 数值 来 
汇总 数据 。 当 数值 是 来 自 样 本 时 ， 它 们 被 称 为 样本 统计 
量 ; 当 数 值 基 来 自 总 体 时 ， 它 们 被 称 为 总 体 参 数 “。 下 
面 是 一 些 用 来 表示 样本 统计 量 和 总 体 参 数 的 符号 。 


样本 统计 量 总 体 参 数 
平均 数 x . 
方差 ar 
标准 差 s o 
协 方差 5 Ca 
相关 系数 r p 





作为 对 中 心 位 置 的 度量 ， 我 们 定义 了 平均 数 、 中 
位 数 、 众 数 、 加 权 平 均 数 、 几 何平 均 数 、 百 分 位 数 和 
四 分 位 数 。 接 着 ， 作 为 变异 程度 或 离散 程度 的 度量 ， 










sample statistic “样本 统计 量 用 来 对 样本 进行 综合 度 
量 的 数值 (如 样本 平均 数 *， 样 本 方差 和 样本 标 
准 差 ;5)。 

population parameter 总 体 参 数 ”用 来 对 总 体 进 行 综 
合 度 量 的 数值 (如 总 体 平均 数 几 ， 总 体 方差 o 和 总 
体 标准 差 oq)。 

point estimator 点 估计 用 来 估计 相应 总 体 和 参数 的 样 
本 统计 量 ， 如 %，s 和 s。 

mean 平均 数 数据 中 心 位 置 的 一 种 度量 ， 计 算 方法 
是 将 所 有 数据 值 加 总 ， 再 除 以 数据 的 个 数 。 

weighted mean 加权 平均 数 ”通过 给 每 一 个 观测 值 分 
配 一 个 反映 其 重要 性 的 权重 ， 而 得 到 的 平均 数 。 

median ”中 位 数 数据 中 心 位 置 的 一 种 度量 ， 它 是 当 
数据 按照 升序 排列 时 ， 处 于 数据 中 间 位 置 的 数据 值 。 

geometric mean 几何 平均 数 数据 中 心 位 置 的 一 种 
度量 ， 计 莹 方法 是 个 数值 乘积 的 nn 次 方 根 。 

mode 众 数 数据 的 位 置 的 一 种 度量 ， 被 定义 为 是 出 
现 次 数 最 多 的 数值 。 

percentile 百 分 位 数 ” 一 个 数值 ， 在 数据 集中 至 少 有 
p% 的 观测 值 小 于 或 等 于 该 值 ， 且 至 少 有 (100 -p)% 的 
观测 值 大 于 或 等 于 该 值 。 第 50 百 分 位 数 就 是 中 位 数 。 


日 在 统计 推断 中 ， 样 本 统计 量 被 称 为 总 体 参数 的 点 估计 。 





描述 统计 量 。 


quartiles ”四 分 位 数 ” 第 25 百 分 位 数 ，50 百 分 位 数 和 







Pa + 一 
机 wt . =- 
Ww | Bd 一 
| 
by 
4 le oa 4 


我 们 介绍 了 极 差 、 四 分 位 数 间 距 、 方 差 、 标 准 差 和 标 
准 差 系数 。 数 据 分 布 形态 的 最 基本 度量 是 偏 度 。 偏 度 
为 负 值 时 表示 数据 分 布 左 偏 ; 偏 度 为 正 值 时 表示 数据 
分 布 右 偏 。 然 后 我 们 介绍 了 在 应 用 经 验 法 则 和 切 比 雪 
夫 定 理 时 ， 如 何 同 时 使 用 平均 数 和 标准 差 ， 从 而 对 数 
据 分 布 提供 更 多 的 信息 ， 以 及 识别 出 异常 值 。 

在 第 3.4 节 ， 我 们 演示 了 如 何 实施 五 数 概括 法 和 绘 
制 箱 形 图 ， 它 们 同时 对 数据 分 布 的 位 置 、 变 蜡 程度 和 形 
态 提 供 了 类 似 的 信息 。 在 第 3.5 节 ， 我 们 介绍 了 度量 两 
变量 间 关 系 的 协 方差 和 相关 系数 。 在 最 后 一 节 ， 我 们 演 
示 增 加 数值 度量 如 何 能 提高 数据 仪表 板 的 有 效 性 。 

统计 学 软件 包 和 电子 表格 可 以 用 来 计算 我 们 讨论 
过 的 描述 统计 量 。 在 本 章 末 尾 的 附录 中 ;我 们 演示 了 
如 何 使 用 Minitab、Excel 和 StatTeols 来 计算 本 章 介 绍 的 





75 百 分 位 数 分 别 是 第 一 四 分 位 数 、 第 二 四 分 位 数 
(中 位 数 ) 和 第 三 四 分 位 数 s。 四 分 位 数 将 数据 集 分 为 
四 个 部 分 ， 每 个 部 分 大 约 包含 25% 的 数据 。 

range 极 差 数据 变异 程度 的 一 种 度量 ,， 它 的 定义 是 
最 大 值 与 最 小 值 之 差 。 

interquartile range (IQR) ”四 分 位 数 间距 数据 变 
异 程度 的 一 种 度量 ， 它 的 定义 是 第 三 四 从 位 数 与 第 
一 四 分 位 数 之 差 。 

variance 方差 数据 变异 程度 的 一 种 度量 ， 计 算 的 依 
据 是 数据 值 与 平均 数 的 平方 离 差 。 

standard deviation ”标准 差 ” 数据 变异 程度 的 一 种 度 
量 ， 是 方差 的 正平 方 根 。 

coefficient of variation ”标准 差 系数 数据 相对 变异 程 
度 的 一 种 度量 ， 是 标准 差 除 以 平均 数 再 乘 以 100。 

skewness 偏 度 数据 分 布 形 态 的 一 种 度量 。 数 据 左 
偏 的 偏 度 为 负 值 ; 数据 分 布 对 称 的 偏 度 为 0; 数据 右 
偏 的 偏 度 为 正 值 。 

Z-SCOre Z- 分 数 x; 与 平均 数 的 离 差 (x; -x) 除 以 标 
准 差 s 得 到 的 数值 。z- 分 数 也 称 为 标准 化 数值 ， 表 示 
以 标准 差 的 个 数 度 量 的 %, 与 平均 数 的 距 高 。 


Chebyshev's theorem 切 比 雪夫 定理 用 来 陈述 与 平 
均 数 的 距离 在 一 个 指定 个 数 的 标准 差 之 内 的 数据 值 
所 占 比 例 的 定理 。 

empirical rule ”经验 法 则 ”对 于 具 用 钟 形 分 布 的 数据 ， 
可 用 来 计算 与 平均 数 的 距离 在 1 个 、2 个 和 3 个 标准 
差 之 内 的 数据 值 所 占 比 例 的 法 则 。 

outlier 异常 值 小 得 不 正常 或 大 得 不 正常 的 数值 。 

five-number summary 五 数 概括 法 一 种 用 五 个 数 


值 : 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 第 三 四 分 位 








样本 平均 数 
Fs (3-1) 
总 体 平 均 数 
和 
Wi (3-=2,) 
加 权 平 均 数 
i 
多 三 《3-3 ) 
几何 平均 数 
光 ， = yf = [xx 人 (3-4 ) 
四 分 位 数 间距 
IOR = 0 -0 (3-5) 
总 体 方差 
Ri ME (3-6) 
样本 方差 
六 pA Ej (3-7) 
有 一 ] 
标准 差 





62. 美国 人 一 周 中 外 出 就 餐 的 平均 次 数 从 2008 年 的 
4.0 次 下 降 到 2012 年 的 3.8 次 (Zagat. com，2012 
年 4 月 1 日 )。 一 个 由 20 个 家 庭 组 成 的 样本 ， 上 周 
他 们 外 出 就 餐 次 数 的 数据 如 下 。 


a 计算 平均 数 和 和 中 位 数 。 
b. 计算 第 一 四 分 位 数 和 第 三 四 分 位 数 。 
c. 计算 极 差 和 四 分 位 数 间距 。 
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数 和 最 大 值 来 汇总 数据 技术 。 

box plot 箱 形 图 以 五 数 概括 法 为 依据 的 一 种 数据 的 
图 形 汇总 方法 。 

covariance 协 方 差 两 变量 间 线 性 关系 的 一 种 度量 。 
正 值 表示 正 的 关系 ， 负 值 表示 负 的 关系 。 

correlation of coefficient 相关 系数 两 变量 间 线 性 关 
系 的 一 种 度量 ,其 取 值 在 -1 到 +1 之 间 。 接 近 +1] 
的 值 表 示 强 的 正 线性 关系 ; 接近 一 1 的 值 表示 强 的 
负 线 性 关系 ; 接近 于 零 的 值 表示 没有 线性 关系 。 


TD i 、 
-WY i py 。 
pe ea 4 - 


样本 标准 差 s = Vs 












(3-8) 
总 体 标准 差 o = Vo (3-9) 
标准 差 系 数 
标准 差 
(于 医 它 x 100 )% (3-10) 
z- 分 数 
ee (5 ) 
RY 
样本 协 方差 
= Dy: a = 7) (3-12) 
me = (3-13) 
皮尔 避 积 矩 相关 系数 : 样本 数据 
p= (3-14) 
, $5, 
皮尔 如 积 矩 相关 系数 : 总 体 数据 
CO,, 
p> (3-15) 








d. 计算 方差 和 标准 差 。 

e. 这 些 数据 的 偏 度 为 0.34。 对 这 个 分 布 的 形态 进 
行 评论 。 是 你 期 望 的 形态 吗 ? 为 什么 ? 
f 数据 中 包含 异常 值 吗 ? 

64. 病人 在 艾 尔 帕 索 医生 诊所 的 平均 等 候 时 间 刚 刚 超 
过 29 分 钟 ， 而 美国 全 国 的 平均 候诊 时 间 为 21 分 
钟 。 事 实 上 ， 艾 尔 帕 索 有 全 美国 最 长 的 候诊 时 间 
(EL Paso Time，2012 年 TI1 月 8 日 )。 为 了 处 理 病 人 
长 时 间 等 候 问题 ， 一 些 医 生 诊 所 使 用 了 等 待 追 踪 系 


68. 
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统 来 告知 病人 预计 等 修 时 间 。 根 据 这 些 信息 ， 病 人 
可 以 调整 他 们 的 到 达 时 间 ， 在 等 候 室 花费 少量 的 时 
闻 。 下 面 是 一 个 没有 等 待 追踪 系统 的 诊所 样本 和 一 
个 有 等 竺 追踪 系统 的 诊所 样本 ,它们 病人 的 息 诊 时 
间 数 据 (单位 ; 分 钟 )。 


没有 等 待 追踪 系统 “|24 67 17 20 31 44 12 23 16 37 
有 等 待 追踪 系统 1 i "8 2 9 13 W153 









a. 对 于 有 等 待 追 踪 系 统 的 诊所 ， 病 人 修 诊 时 间 的 
平均 数 和 中 位 数 是 多 少 ? 对 于 没有 等 待 追 踪 系 
统 的 诊所 ， 病 人 候诊 时 间 的 平均 数 和 中 位 数 是 
多 少 ? 

b. 对 于 有 等 待 追踪 系统 的 诊所 ， 病 人 候诊 时 间 的 
方差 和 标准 差 是 多 少 ? 对 于 没有 等 待 追 踪 系 统 
的 诊所 ， 病 人 候诊 时 间 的 方差 和 标准 差 是 多 少 ? 

c. 有 等 待 追 踪 系 统 的 诊所 病人 的 候诊 时 间 比 没有 
等 待 追 踪 系 统 的 诊所 短 吗 ? 请 解释 。 

d. 只 考虑 没有 等 待 追踪 系统 的 诊所 ， 样 本 中 第 10 
位 病人 的 z- 分 数 是 多 少 ? 

e. 只 考虑 有 等 待 追 踪 系 统 的 诊所 ， 样 本 中 第 6 位 


病人 的 z- 分 数 是 多 少 ? 这 个 z- 分 数 如 何 与 (d) ， 


中 计算 z- 分 数 相 比较 ? 

f 基于 z- 分 数 ， 没 有 等 待 追踪 系统 的 诊所 数据 包含 
异常 值 吗 ? 基于 z- 分 数 ， 有 等 待 追踪 系统 的 诊 
所 数据 包含 异常 值 吗 ? 


. 小 型 企业 主 往往 期 望 薪 酬 服务 公司 来 处 理 其 员工 


的 工资 问题 。 原 因 是 小 型 企业 主 主要 面临 复杂 的 税 
收 条 例 以 及 对 就 业 交 税 错误 的 晶 贵 罚款 。 根 据 美国 
国税 局 的 报告 ， 有 26% 的 小 型 企业 主 的 就 业 纳税 
申报 单 有 错误 ， 从 而 导致 对 企业 主 的 税务 罚款 
(《 华 尔 街 日 报 》，2006 年 1 月 30 日)。20 个 小 型 
企业 主 税务 罚 识 的 样本 数据 如 下 。 

820 270 450 1010 890 700 1350 350 300 1200 
390 730 2040 230 640 350 420 270 370 620 


a. 对 于 不 正确 的 就 业 纳 税 申报 单 ， 平 均 税 务 罚 款 
是 多 少 ? 

b. 标准 差 是 多 少 ? 

c. 最 高 的 罚款 2040 美元 是 异常 值 吗 ? 

d. 小 型 企业 主 雇用 薪酬 服务 公司 来 处 理 包 括 其 就 
业 纳 税 申报 单 等 员工 的 工资 问题 ， 有 哪些 优点 ? 

美国 房地产 协会 报道 了 美国 房屋 价格 的 中 位 数 和 5 

年 期 间 房屋 价格 中 位 数 的 增长 率 〈《 华 尔 街 日 报 》， 
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2006 年 1 月 16 日 )。 利 用 下 面 房 是 价格 (单位 ; 
1 000 美 元 ) 的 样本 数据 回答 下 列 问题 。 

995.9 48.8 175.0 263.5 298.0 218.9 209.0 
628.3 11l.0 212.9 926 %325.0 ‘958.0 212.5 


a. 上 房屋 价格 样本 中 位 数 蚌 多 少 ? 

b. 在 2001 年 1 月， 美国 房地产 协会 报道 了 美国 上 房 
屋 价格 的 中 位 数 为 139 300 美元 。5 年 期 间 房 晨 
价格 中 位 数 增长 率 是 多 少 ? 

c. 样本 数据 的 第 一 四 分 位 数 和 第 三 四 分 位 数 是 
多 少 ? 

d. 对 房屋 价格 应 用 五 数 概括 法 。 

e. 数据 中 有 异常 值 吗 ? 

f. 上 房屋 价格 的 样本 均 秆 是 多 少 ? 为 什么 美国 房 地 
产 协会 在 报道 中 更 喜欢 使 用 房屋 价格 的 中 位 数 ? 

Travel + Leisure 杂志 提供 世界 上 500 家 最 佳 酒 店 的 

年 度 一 览 表 (Travel + Leisure,，2009 年] 月 )。 杂志 

给 出 了 每 一 家 酒店 的 排名 ， 同 时 还 对 每 一 家 酒店 

的 规模 、 环 境 、 双 人 间 的 每 晚 价格 进行 了 简单 的 描 

述 。 美 国 12 家 顶级 酒店 的 样本 如 下 。 

酒店 价格 / 晚 
Boulders Resort 菲尼克斯 ， 亚 利 桑 409 

& Spa 那州 
Disney"s Wilder- 

ness Lodge 达州 
Four Seasons 


洛杉矶 ， 加 利 福 尼 
Hotel Beverly Hills | 亚 州 
Four Seasons 波士顿 ， 马 萨 诸 
Hoatel 本 = 


奥兰多 , 佛 罗 里 a 


585 


495 


Hay- Adams 和 特区 495 

Inn on Biltmore 阿 件 维尔 ， 和 279 
Estate 来 纳 州 

Loews Ventana 菲尼克斯 ， 亚 利 桑 279 
Canyon Resort ,那州 

本 Laguna | Laguna 海滩 ， 加 05 
Beach 利 福 尼 亚 州 

Sefitel Water 芝加哥 ,要 利 诺 367 
Tower 伊 州 

St. Regis 达 纳 半 岛 ， 加 利禄 
Monarch Beach 尼 亚 州 


科罗拉多 斯 普 林 
em 
a. 客房 的 平均 数 是 多 少 ? 

b. 双人 间 每 晚 价格 的 平均 数 是 多 少 ? 
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c， 以 客房 数 为 模 轴 ， 每 晚 价 格 为 纵 轴 绘制 散 点 图 。 
客房 数 和 每 晚 和 价格 之 间 相 关 吗 ? 请 讨论 。 

d. 和 料 本 相关 系数 是 多 少 ? 关于 客房 数 和 双人 间 每 
晚 价格 之 间 的 关系 ， 这 个 相关 系数 能 告诉 你 怎 
样 的 信息 ”这 个 结论 合理 吗 ? 请 讨论 。 

职业 棒球 大 联盟 的 球 队 春 训 期 间 的 记录 能 说 明 球 

队 在 常规 赛 中 的 表现 吗 ? 在 过 去 6 年 期 间 ， 球 队 在 

春 训 期 间 的 获胜 率 与 它 在 常规 赛 中 的 获胜 率 之 间 

的 相关 系数 为 0.18。(《 华 尔 街 日 报 》，2009 年 3 月 


30 日 )。 下面 是 2008 赛季 14 支 美 国 职业 棒球 联盟 
球 队 获 胜率 数据 。 









巴尔 的 摩 Orioles 
波士顿 Red Sox ”0.429 0. 586 
区 加 哥 White Sox 0,417 0.546 
克利 夫 兰 Indians 0.369 0.500 
底特律 Tigers 0. 569 0.457 
堪萨斯 City Royals 0. 533 0.463 


洛杉矶 Angels 0.724 0.617 | 多伦多 Blue Jays 





第 3 章 措 述 统计 学 川 ， 数值 方法 81 


a. 春 训 和 销 规 赛 获 胜率 之 间 的 相关 系数 是 多 少 ? 

b. 对 一 支 球 队 春 训 期 间 的 记录 说 明 球 队 在 常规 赛 
中 的 表现 ， 你 有 什么 结论 ? 会 出 现 这 种 情况 的 
原因 是 什么 ? 请 讨论 。 


74. 在 一 个 限 速 为 每 小 时 5S5 英里 的 公路 上 行驶 的 汽车 


会 受到 州 警察 雷达 系统 的 车 速 检测 。 下 面 一 个 是 
车 速 的 频数 分 布 。 


车 速 (英里 /小 时 ) 频数 
45.~49 10 
50~54 40 
55 ~59 150 
60 ~64 175 
65 ~69 75 
70 ~74 15 
75 ~79 10 

合计 475 


a 在 这 条 公路 上 行驶 的 汽车 的 平均 车 速 是 多 少 ? 
b. 计算 方差 和 标准 差 。 


dd Ff fa 


i - 
F 下， 二 入 
ER . 


Pelican 商店 是 National Clothing 的 一 个 分 克 ， 是 一 家 在 全 美 范围 内 经 营 妇 女 服饰 的 连锁 商店 。 最 近 ， 它 举办 了 
一 项 促销 活动 ， 向 其 他 /National Clothing 商店 的 顾客 赠送 优惠 券 。 在 促销 活动 期 内 的 某 一 天 ，Pelican 商店 抽取 了 
”100 名 持 信用 卡 交易 的 顾客 组 成 一 个 样本 ， 搜 柠 到 的 数据 存在 名 为 PelicanStores 的 文件 中 。 表 3-9 是 数据 集 的 二 部 
分 。Proprietary Card 付款 方法 是 指使 用 National Clothing 签 账 卡 收费 。 使 用 优惠 券 购物 的 顾客 定义 为 促销 顾客 ， 没 
有 使 用 优惠 券 购物 的 顾客 定义 为 普通 顾客 。 因 为 优惠 券 不 会 派发 给 Pelican 商店 的 普通 顾客 ， 管 理 者 认为 ， 持 促销 
优惠 券 的 顾客 生产 的 销售 额 与 其 他 顾客 不 同 。 当 然 ，Pelican 的 管理 者 也 希望 促销 顾客 会 继续 在 他 的 商店 购物 。 
表 3-9 中 的 大 多 数 变量 不 需要 解释 ， 但 有 两 个 变量 需要 稍 做 说 明 。 


项 目 购买 商品 的 总 件数 
净 销 售 额 ”信用卡 支付 的 总 金额 (单位 : 美元 ) 


Pelican 的 管理 者 希望 使 用 这 些 样 本 数据 ， 以 了 解 其 顾客 的 基本 情况 并 对 使 用 优惠 券 的 促销 活动 进行 评估 。 


表 3-9 Pelican 商店 的 100 名 持 信 用 卡 消费 的 样本 数据 


顾客 顾客 类 型 项 目 净 销售 额 支付 方法 性 别 婚姻 状况 年 龄 
1 常规 性 1 39. 50 Discover 男 已 婚 32 
2 奖励 性 ] 102. 40 Proprietary Card 女 已 婚 36 
3 常规 性 1 22. 50 Proprietary Card 女 已 婚 32 
4 奖励 性 5 100. 40 Proprietary Card 女 已 婚 28 
5 常规 性 2 54. 00 MasterCard 交 已 婚 34 
6 常规 性 1 44. 50 MasterCard 女 已 婚 44 
7 奖励 性 2 78.00 Proprietary Card 次 已 婚 30 
S 常规 性 1 22. 50 Visa 女 已 婚 40 
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( 续 ) 
顾客 顾客 类 型 项 目 净 销 售 额 支付 方法 性 别 婚姻 状况 年 龄 
9 奖励 性 2 56. 52 Proprietary Card 女 已 婚 46 
10 常规 性 1 44. 50 Proprietary Card 女 已 婚 36 
96 常规 性 1 39. 50 MasterCard 女 已 婚 44 
97 奖励 性 9 253. 00 Proprietary Card 女 已 婚 30 
98 奖励 性 10 287. 59 Proprietary Card 女 已 婚 52 
99 奖励 性 2 47. 60 Proprietary Card 女 已 婚 30 
100 奖励 性 1 28, 44 Proprietary Card 女 已 婚 44 
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使 用 本 章 介绍 的 描述 统计 的 方法 来 汇总 数据 并 评价 你 的 发 现 。 和 你 的 报告 至 少 应 该 包括 以 下 内 容 : 
1. 净 销 售 额 的 描述 统计 量 和 顾客 的 各 种 不 同 分 类 的 净 销 售 额 的 描述 统计 量 。 
2. 关于 年 龄 与 兆 销 售 额 之 间 关 系 的 描述 统计 量 。 






电 影 业 是 一 个 竞争 激烈 的 行业 ， 每 年 有 超过 50 个 制 片 厂 制作 出 几 百 部 新 电影 ， 每 部 电影 商业 上 的 成 功 差 异 
很 大 。 周 末 首 映 票 房 收入 (单位 : 100 万 美元 ) 、 票 房 总 收入 《单位 : 100 万 美元 )、 放 喘 电 影 的 剧院 数 ， 以 及 电 
影 放映 的 周 数 是 衡量 一 部 电影 是 否 成 功 的 最 常用 的 变量 。2011 年 制作 的 100 部 大 中影 的 样本 数据 存在 文件 名 为 
Movies 文件 中 (Box Office Mojo，2012 年 3 月 17 日 )。 表 3-10 是 文件 中 前 10 部 的 电影 的 有 关 数 据 。 注 意 ， 有 些 电 
影 ， 如 《战马 》 在 2011 年 年 底 上 喘 ，2012 年 继续 放映 。 


表 3-10 10 部 电影 的 业绩 数据 


电影 首 映 票房 (100 万 美元 ) 票房 总 收入 (100 万 美元 ) 剧院 数 放映 周 数 
哈 利 波 特 与 死亡 圣 器 第 二 部 169. 19 381.01 4375 19 
变形 金刚 : 月 黑 之 时 97.85 352. 39 4 088 15 
暮 光 之 城 : 破晓 第 一 部 138. 12 281. 29 4066 14 
宿 醉 2 85. 95 254. 46 3 675 16 
加 勒 比 海盗 : 惊 涛 怪 浪 90. 15 241. 07 4164 19 
速度 与 激情 5 86. 20 209. 84 3793 15 
碟 中 庶 4:; 幽灵 协议 12.79 208. 55 3 555 13 
赛车 总 动员 2 66. 14 191.45 4115 25 
福尔摩斯 ; 诡 影 游戏 39. 64 186. 59 3 703 13 
雷神 65. 72 181. 03 3 963 16 
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使 用 本 章 介 绍 的 描述 统计 的 方法 来 了 解 这 些 变量 对 一 部 电影 成 功 有 怎样 的 贡献 。 你 的 报告 应 该 包括 以 下 
内 容 : 

1. 四 个 变量 中 每 个 变量 的 描述 统计 量 ， 接 着 对 每 个 描述 统计 量 得 出 的 关于 电影 业 的 情况 进行 讨论 。 

2. 如 果 有 ， 哪 些 电影 被 认为 是 优异 表现 的 异常 值 ? 请 解释 。 

3. 列 出 总 票房 收入 与 每 一 个 其 他 变量 之 间 关 系 的 描述 统计 量 ， 请 解释 。 
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案例 3-3 亚太 地 区 由 商学 阮 A 


当前 追求 工商 管理 专业 较 高 的 学 历 已 是 一 种 国际 性 的 潮流 。 有 调查 表明 ， 越 来 越 多 的 亚洲 人 选择 攻读 工商 管理 
硕士 (MBA) 学 位 ， 把 它 作 为 通 向 企业 成 功 的 一 种 途径 。 因 此 ， 亚 太 地 区 商学 院 MBA 课程 的 申请 者 人 数 持续 增加 。 

在 整个 亚太 地 区 ， 有 成 千 上 万 的 亚洲 人 暂时 搁 获 自己 的 事业 ， 并 花 两 年 的 时 间 来 追求 系统 的 工商 管理 教育 。 
这 些 工商 管理 课程 众所周知 是 十 分 繁重 的 ， 包 括 经 济 学 、 人 金融 学 、 市 场 营 销 、 行 为 笠 学、 劳动 关系 、 决 策 论 、 战 
略 思想 、 经 济 法 等 。 表 3-11 的 数据 集中 列 出 了 亚太 地 区 一 流 商 学 院 的 一 些 情 况 。 
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利用 猫 述 统计 学 的 方法 来 汇总 表 3-11 中 的 数据 ， 并 讨论 你 的 发 现 。 
1. 对 数据 集中 的 每 一 个 变量 进行 汇总 。 根 据 最 大 值 、 最 小 值 、 适当 的 平均 数 和 分 位 数 ， 进 行 评价 和 解释 。 对 
于 亚太 地 区 的 商学 院 ， 这 些 描述 统计 量 能 够 提供 什么 新 的 见解 ? 
2. 汇总 数据 以 进行 下 列 比较 : 
a. 本 国学 生 和 国外 学 生 学 费 的 差别 。 
b, 要 求 工 作 经 验 和 不 要 求 工作 经 验 的 学 校 学 生平 均 起 薪 的 差别 。 
c. 要 求 英语 测试 和 不 要 求 英语 测试 的 学 校 学 生 的 起 薪 的 差别 。 
3. 起 薪 与 学 费 有 关 吗 ? 
4. 对 表 3-11 的 数据 作出 其 他 的 图 形 和 数值 汇总 ， 以 便 同 他 人 交流 。 


表 3-11 亚太 地 区 25 所 商学 院 的 数据 
录取 每 个 学 。 本 国学 生 外 国学 生 国外 学 生 ”是 否 要 求 ”是 否 要 求 ”是 否 要 求 起 薪 


A 名 额 院 人 数 学费 (美元 ) 学 费 (美元 ) 年 龄 比例 (% ) ”GMAT ”英语 测试 工作 经 验 (美元 ) 
墨尔本 商学 院 200 5 24 420 29 600 28 47 是 否 是 71400 
新 南 威 尔 士 大 学 (悉尼) 228 4 19 993 32 582 29 是 否 是 65200 
印度 管理 学 院 〈 阿 默 达 巴 德 ) 3 ~ 8 4300 4 300 22 0 否 否 否 7100 
香港 中 文大 学 90 5 11 140 11 140 29 10 是 否 否 31000 
日 本 国际 大 学 (新 渴 ) 126 4 33 060 33 060 28 60 是 是 否 87000 
亚洲 管理 学 院 (马尼拉 )、 389 5 7562 9 000 25 50 是 否 是 22 800 
印度 管理 学 院 (班加罗尔 ) 380 5 3 935 16 000 23 1 是 否 和 否 7 500 
新 加 坡 国 立 大 学 147 6 6146 7170 29 51 是 是 是 ” 43300 
印度 管理 学 院 ( 加尔 各 答 ) 463 加 2 880 16 000 23 0 否 否 否 7 400 
澳大利亚 国立 大 学 (堪培拉) 42 2 20 300 20 300 30 80 是 是 是 46 600 
南洋 理工 大 学 (新加坡) 50 5 8 500 8500 32 20 是 否 是 49300 
昆士兰 大 学 〈 布 里 斯 班 ) 138 17 16 000 22 800 32 26 否 否 是 49600 
香港 科技 大 学 €0 2 11 513 11 513 26 37 是 否 十 34000 
麦 硅 里 管理 研究 生 院 (悉尼 ) 12 8 17 172 19778 34 27 否 否 是 60 100 
Chulalongkom 大 学 (曼谷 ) 200 7 17355 17 355 25 6 是 否 是 。 17600 
Monash Mt Eliza 商学 院 (墨尔本 ) 350 13 16 200 22 500 30 30 是 是 是 5$2500 
亚洲 管理 学 院 (曼谷 ) 300 10 18 200 18 200 29 90 和 否 是 是 ” 25000 
阿 德 莱 德 大 学 20 19 16 426 23 100 30 10 否 否 是 “66000 
梅 西 大 学 〈 新 西 兰 ， 北 帕 默 斯 顿 ) 30 15 13 106 21 625 37 35 否 是 是 41400 
皇家 墨尔本 技术 工商 学 院 30 7 13 880 17 765 32 否 是 是 48900 
Jamnalal Bajaj 管理 研究 院 (孟买 ) 240 9 1 000 1 000 24 0 否 否 是 7000 
柯 廷 理工 学 院 ( 珀 思 ) 98 15 9.475 19.097 29 43 是 否 是 55000 
拉 合 尔 管 理科 学 学 院 70 14 11 250 26 300 23 2.5 否 否 否 7 500 
马来西亚 Sains 大 学 〈 槟 城 ) 30 5 2260 2260 32 15 香 是 是 16 000 
De La Salle 大 学 (马尼拉) 44 17 3 300 3 600 28 入 污 是 否 是 志 -13400 
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9 网 络 艾 入 \ 夯 


天 使 巧克力 在 位 于 纽约 州 萨 拉 托 加 的 工厂 和 零售 店 制造 和 销售 优质 巧克力 产品 。 两 年 前 公司 建立 了 网 站 ， 并 
开始 在 互联 网 上 销售 其 产品 。 网 络 销售 超过 了 公司 的 期 待 ， 管 理 者 现在 考虑 增加 未 来 销售 额 的 战略 。 为 了 了 解 网 
络 消费 者 的 更 多 信息 。 从 前 几 个 月 的 销售 中 ,选择 了 50 次 天 使 巧克力 交易 组 成 一 个 样本 ， 数 据 中 包括 每 笔 交 易 
的 发 生日 期 、 消 费 者 使 用 的 浏览 器 类 型 、 在 网 站 上 度 过 的 时 间 、 观 看 网 页 的 数量 以 及 每 名 消费 者 的 消费 金额 ， 数 
据 存 在 名 为 Shoppers 的 文件 中 。 表 3-12 是 数据 的 一 部 分 。 





表 3-12 ”一 个 50 笔 天 使 巧克力 网 络 交易 的 样本 数据 


消费 者 日 期 浏览 器 时 间 ( 分钟) 观看 网 页 消费 金额 (美元 ) 
1 周一 因特网 12.0 4 54. 52 
2 三 其 他 19.5 6 94. 90 
3 周一 因特网 8.5 4 26. 68 
4 周二 火狐 11.4 2 44. 73 
5 三 因特网 11.3 4 66. 27 
6 周 六 火狐 10.5 6 67. 80 
7 周 日 因特网 11.4 2 36. 04 
48 周 五 因特网 9.7 5 103. 15 
49 周一 其 他 7.3 52. 15 
50 周 五 因特网 13.4 3 98. 75 


天 使 巧克力 希望 用 这 些 样 本 数据 ， 来 确定 在 线 购物 者 是 否 花费 更 多 时 间 、 观 看 更 多 网 页 以 及 他 们 在 浏览 网 站 
时 是 否 消费 更 多 。 公 司 也 希望 调查 销售 日 期 和 浏览 器 类 型 的 效果 。 
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使 用 描述 统计 学 的 方法 来 了 解 访问 天 使 巧克力 网 站 的 消费 者 信息 。 你 的 报告 应 该 包括 下 面 的 内 容 : 

1. 购物 者 在 网 站 上 度 过 的 时 间 长 度 、 观 看 网 页 的 数量 ， 以 及 每 笔 交 易 的 平均 消费 金额 的 图 表 和 数值 汇总 。 从 
这 些 数 值 汇总 中 ,讨论 你 了 解 的 关于 天 使 巧克力 在 线 购物 者 的 情况 。 

2. 对 每 周 的 交易 日 期 汇总 频数 、 消 费 总 额 以 及 每 笔 交 易 的 平均 消费 金额 。 要 于 每 周 交 易 日 期 数据 ， 关于 天 使 
巧克力 的 交易 量 你 能 得 出 怎样 的 观察 结果 ? 请 讨论 。 

3. 对 每 种 浏览 器 类 型 汇总 频数 、 消 费 总 额 以 及 每 笔 交 易 的 平均 消费 金额 。 根 据 浏 览 器 类 型 数据 ， 关 于 天 使 巧 
克 力 的 交易 量 你 能 得 出 怎样 的 观察 结果 ? 请 讨论 。 

4 绘制 散记 图 并 计算 样本 相关 系数 以 探索 在 网 站 上 度 过 时 间 和 消费 金额 之 间 的 关系 ， 以 在 网 站 上 度 过 时 间 为 
横 轴 。 请 讨论 。 

5. 绘制 散 点 图 并 计算 样本 相关 系数 以 探索 观看 网 页 数量 和 消费 金额 之 间 的 关系 ， 以 观看 网 页 数量 为 模 轴 。 请 
讨论 6 

6. 绘制 散 点 图 并 计算 样本 相关 系数 以 探索 在 网 站 上 度 过 时 间 和 观看 网 页 数量 之 间 的 关系 ， 以 观看 网 页 数量 为 
横 轴 。 请 讨论 。 





虽然 数 以 百 万 计 的 大 象 兽 经 漫步 于 非洲 ， 但 是 在 20 世纪 80 年 代 中 期 ， 非 洲 国家 大 象 的 数量 因 偷 猎 受到 毁灭 
性 打击 。 大 象 是 非洲 生态 系统 的 重要 组 成 部 分 。 在 热带 森林 ， 大 象 在 有 利于 新 树木 生长 的 树冠 中 创造 林 中 空地 。 
在 热带 稀 树 草原 ， 大 象 减少 灌木 覆盖 ， 创 造 有 利于 食 草 动物 的 环境 。 另 外 ， 许 多 植物 的 种 子 在 发 着 前 依赖 于 经 过 
大 象 的 消化 道 。 
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现在 ， 在 非洲 大 象 的 状况 有 很 大 不 同 ; 在 一 些 国家 ， 采 取 强 有 力 的 措施 有 效 地 保护 了 大 象 的 数量 ， 而 与 此 同 
时 ， 由 于 为 了 肉 类 和 象牙 的 偷 猫 、 栖 息 地 的 丢失 以 及 人 类 的 战争 ， 在 另 一 些 国 家 大 象 继续 处 于 危险 之 中 。 表 3-13 
给 出 了 1979 年 、1989 年 和 2007 年 几 个 非洲 国家 的 大 象 数 量 [ Lemieux and Clarke，“The International Ban on Jvory 
Sales and Its Effects on Elephant Poaching im Africa,” British Journal of Criminology, 49 (4), 2009 |]。 


表 3-13 1979 年 、1989 年 和 2007 年 几 个 非洲 国家 的 大 象 数量 


大 象 总 数 

国家 1979 1989 2007 
安 加 拉 12 400 12 400 2 530 
博茨瓦纳 20 000 51 000 175 487 
暗 麦 隆 16 200 21 200 15 387 
中 非 63 000 19 000 3 334 
乍得 15 000 3 100 6 435 
刚果 10 800 70 000 22 102 
刚果 共和 国 337 700 85 000 23 714 
加 莲 13 400 76 000 70 637 
肯尼亚 65 000 19 000 31 636 
莫桑比克 54 800 18 600 26 088 
索马里 24 300 6000 70 
苏 凡 134 000 4 000 300 
坦桑尼亚 316 300 80 000 167 003 
赞比亚 150 000 41 000 29 231 
津巴布韦 30 000 43 000 99 107 


1977 年 成 立 的 薛 德 瑞 克 野生 动物 基金 会 (David Sheldrick Wildlife Trust)， 是 为 了 纪念 自然 学 家 戴 维 . 莱 斯 
利 …: 威廉 ' 薛 德 瑞 克 (David Leslie William Sheldrick)， 他 创办 了 肯尼亚 东 查 沃 国家 公园 (Tsavo East National 
Park) ,领导 该 国 的 野生 动物 保护 和 管理 规划 单位 。 巷 德 瑞 克 基金 会 管理 部 门 想 知 道 ， 这 些 数 据 能 显示 出 自 1979 
年 以 来 非洲 各 国 大 象 总 数 的 何 种 变动 。 
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使 用 描述 统计 学 的 方法 汇总 数据 ， 并 对 自 1979 年 以 来 非洲 各 国 大 象 数 量 的 变动 进行 评论 。 你 的 报告 至 少 应 
该 包括 下 面 的 内 容 : 
1. 从 1979 ~ 1989 年 ， 每 个 国家 大 象 数据 的 年 平均 变化 ， 并 讨论 在 这 10 年 中 哪个 国家 大 象 的 数量 变化 最 大 。 
2. 从 1989 ~ 2007 年 ， 每 个 国家 大 和 象 数 据 的 年 平均 变化 ， 并 讨论 在 这 18 年 中 哪个 国家 大 象 的 数量 变化 最 大 。 
3. 比较 1 和 2 中 的 结果 ， 并 讨论 你 从 这 些 比较 中 得 出 的 结论 。 
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实践 中 的 统计 
概率 在 救援 中 的 应 用 


2010 年 8 月 5 日， 智利 圣何塞 铜 矿 发 生 塌 方 事 故 ， 
33 名 矿工 被 埋 在 2000 英尺 深 的 地 下 。 圣 何 塞 铜 矿 位 
于 智利 科比 亚 波 市 附近 的 阿 塔 卡 蕊 沙 汉中 。 矿工 们 生 
存 的 希望 渺茫 ， 在 焦虑 中 人 们 尝试 用 各 种 定位 方法 确 
定 矿 工 所 处 的 位 置 ， 以 及 他 们 是 否 仍然 活着 。 事 故 发 
生 后 的 第 17 天， 营救 人 员 借 助 5.5 英尺 钥 的 探 杆 发 现 
了 矿工 并 确认 他 们 都 还 活着 。 

当务之急 是 尽快 将 这 些 矿 工 安全 地 带 回 地 面 ， 更 
为 至 关 重 要 的 是 ,营救 工作 必须 说 愤 进 行 。 剖 利 ， 拉 
斯 是 承包 商 Murray&Roberts 的 经 理 ， 他 在 接受 《圣地 
亚 哥 时 报 》 的 采访 时 说 : “由 于 圣何塞 矿 已 开发 多 年 ; 
营救 中 要 当心 发 生 再 次 垮塌 。” 因此， 营救 方案 必须 周 
密 设 计 ， 谨 愤 实 施 。 

智利 政府 请 求 美 国 宇航 局 (NASA) 充当 营救 行动 
的 顾问 。 于 是 , “NASA 派出 了 一 个 由 一 名 工程 师 ( 克 
林 顿 ， 克 雷 格 )、 两 名 物理 学 家 (迈克尔. 邓肯、 
十 D. 波 尔 克 ) 以 及 一 名 心理 学 家 (Al Holland) 组 成 
的 四 人 小 组 。 当 被 问 及 宇航 局 为 何 受 邀 做 矿难 救援 的 顾 
问 时 ， 邓 肯 说 :“ 在 营救 设备 的 设计 以 及 长 期 独处 所 于 
到 的 问题 方面 ， 我 们 可 以 向 智利 同行 分 享 我 们 的 经 验 。 

正如 入 们 所 想象 的 那样 ， 失 败 的 可 能 性 还 是 相当 
高 的 。 克 雷 格 说 : “鉴于 营救 设备 要 在 通道 中 穿行 40 
次 以 上 ， 因 此 必须 考虑 可 能 发 生 的 零件 磨损 。 我 们 建 
议 预 备 三 套 营 救 设备 并 备 好 所 需 零 件 。 为 了 提高 救援 
成 功 的 可 能 性 ， 还 要 在 笼子 的 四 面 安 装 带 有 弹簧 加 载 
的 辊 ， 使 得 笼子 在 营救 通道 中 罕 行 时 不 会 与 周围 的 岩 


壁 发 生 直 接 接 触 ， 防 止 笼子 受到 损毁 。 

仔细 考虑 各 种 事件 发 生 的 概率 尤为 重要 ， 但 是 我 
们 却 并 不 能 精确 地 估计 这 些 概 率 ， 只 能 由 美国 宇航 局 
的 科学 家 基于 太空 飞行 中 类 和 似 情况 下 的 经 验 进 行 主 观 
估计 。 邓 肯 说 :“ 虽 然 我 们 和 智利 方面 的 营救 人 员 都 希 
望 根 据 历 史 数 据 能 够 精确 地 估计 这 些 概 率 ， 但 是 矿难 
的 唯 二 性 却 使 得 精确 估计 无 法 进行 。” 比如 ， 在 上 升 到 
地 面 的 过 程 中 ， 矿 工 必 须 垂 直 站 立 在 秒 子 中 ， 初 步 估 
计 这 大 概 需 要 历时 2=4 个 小 时 。 因 此， 必须 考虑 到 和 表 
迷 。 我 们 所 能 做 的 是 ， 充 分 考虑 营救 中 可 能 发 生 的 各 
种 情况 ， 并 运用 航天 员 在 执行 短期 和 长 期 室 间 任务 后 
返回 地 球 过 程 中 所 积累 的 经 验 ， 对 这 些 情况 予以 处 置 。 
邓肯 最 后 总 结 说 ;:“ 实 际 上 ， 将 笼子 从 井 底 升 到 地 面 只 
需要 15 分 钟 。 我们 最 初 的 估计 是 相当 保守 的 。 仔细 考 
虑 可 能 电 到 的 风险 ， 这 正 是 我 们 要 做 的 。” 

最 终 ， 智 利 经 与 美国 宇航 局 商讨 后 设计 的 营救 方 
案 取 得 了 图 满 成 功 。10 月 13 日 ， 最 后 一 名 矿工 出 现 ; 
不 锈 钢 制 成 的 FEnix2 救援 船长 13 英尺 ， 重 达 924 磅 ， 
承受 住 了 在 矿井 中 超过 40 次 的 往返 穿行 ; 在 升 回 到 地 
面 的 过 程 中 , ;并 没有 矿工 发 生 珠 厥 。 

美国 字 航 局 经 常 要 在 上 述 这 种 孤立 情形 下 运用 主 
观 概率 。 空 间 飞 行 器 上 的 空间 有 限 ，NASA 必须 估算 各 
种 零 部 件 失 灵 的 概率 以 及 与 之 相伴 的 风险 ， 从 而 决定 
在 太空 飞行 中 哪些 零 部 件 需 要 携带 备用 件 : NASA 还 利 
半 概 率 评价 航天 员 在 执行 空间 探险 任务 时 的 健康 情况 
和 工作 绩效 。 


管理 者 经 常 是 在 分 析 不 确定 性 的 基础 上 进行 决策 的 ， 比 如 ; 
(1) 如 果 提 高 价格 ， 则 销售 量 下 降 的 “可 能 性 ”有 多 大 ? 
(2) 某 种 新 的 装配 方法 提高 生产 效率 的 “可 能 性 ”有 多 大 ? 


(3) 某 项 工程 如 期 完成 的 “可 能 性 ”有 多 大 ? 
(4) 某 项 新 投资 赢利 的 “可 能 性 ”有 多 大 ? 


概率 (probability) 是 对 某 一 特定 事件 发 生 的 可 能 性 的 数值 度量 。 因 此 ， 概 率 可 以 用 来 度量 上 述 4 个 事件 的 
不 确定 性 程度 。 我 们 利用 概率 可 以 度量 某 个 事件 发 生 的 可 能 性 大 小 。 


龟 ”作者 在 此 感谢 迈克 尔 ， 邓肯 博士 和 美国 宇航 局 的 克林顿 克 雷 格 ， 他 们 为 实践 中 的 统计 提供 了 本 案例 。 


电 1 英尺 =0.3 米 


是 ”对 概率 的 研究 最 早起 源 于 17 世纪 50 年 代 Pierre de Fermat 与 Blaise Pascal 之 间 的 一 系列 通信 。 
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事件 的 概率 总 是 在 0~1 之 间 。 若 事件 的 概率 等 于 0， 则 表明 事件 几乎 不 可 能 发 生 ; 者 事件 的 概率 等 于 1， 则 
表明 事件 几乎 肯定 要 发 生 ; 若 事件 的 概率 介 于 0 和 1 之 间 ， 则 代表 事件 发 生 可 能 性 的 程度 。 比 如 说 ， 对 于 “明天 
下 雨 ”这 一 事件 ， 如 果 气 象 预报 称 “ 降 水 概率 几乎 为 零 ”"， 则 我 们 理解 为 明天 几乎 不 可 能 下 十 ; 如 果 天 气 预 报 称 
“降水 概率 为 900%”， 则 意味 着 极 有 可 能 要 下 雨 ; 如 果 天 气 预报 称 “ 降 水 概率 为 50%”， 则 有 无 降水 的 可 能 性 是 均 
等 的 。 图 4-1 形象 地 描述 了 概率 是 如 何 用 数值 来 度量 事件 发 生 可 能 性 的 大 小 的 。 

发 生 的 可 能 性 增加 





’ 0 0.5 1.0 


事件 发 生 与 不 发 生 的 可 能 性 相同 
4-1 概率 是 对 事件 发 生 可 能 性 的 数值 度量 


4.1 试验 、 计 数 法 则 和 概率 分 配 


在 概率 论 中 ,我 们 把 可 以 产生 明确 结果 的 过 程 定义 为 试验 (experiment)。 在 一 次 试验 中 ， 有 且 只 有 一 个 试验 
结果 发 生 。 下 面 是 几 个 有 关 试 验 及 试验 结果 的 例子 。 


试验 试验 结果 试验 试验 结果 
抛 扼 一 枚 硬币 正面 、 反 面 措 一 校 色 子 1,2.3, 4,5,6 
检测 一 个 零件 合格 、 不 合格 进行 一 场 足 球 比 赛 获胜 、 人 失利 、 平 局 
进行 一 次 电话 销售 购买 、 不 购买 


一 旦 确定 了 试验 的 所 有 可 能 结果 ， 就 确定 了 试验 的 样本 空间 (sample space) 。 






Wi 
mh 


任何 一 个 特定 的 试验 结果 被 称 为 样本 点 (sample point) ， 它 是 样本 空间 中 的 一 个 元 素 。 
上 表 中 的 第 一 个 试验 里 ， 抛 掷 一 枚 硬币 的 试验 结果 (样本 点 ) 只 有 两 种 : 硬币 朝 上 的 一 面 要 么 是 正面 要 么 是 
肥 面 。 用 $ 表示 样本 空间 ， 可 以 用 下 面 的 记号 来 表示 样本 空间 : 
S = | 正面 ,反面 | 
对 表 中 的 第 二 个 试验 一 一 检测 一 个 零件 ， 其 样本 空间 为 ; 
S = | 合格 ,不 合格 | 
上 述 两 个 试验 都 只 有 两 种 最 基本 的 试验 结果 (样本 点 ) 。 但 是 ， 对 表 中 的 第 四 个 试验 一 一 抛 搓 一 枚 色 子 ， 试 
验 结果 为 色 子 朝 上 一 面 的 点 数 。 此 时 ， 样 本 空间 有 6 个 点 ， 为 : 
S = 1i23 4 和 4 


4.1.1 计数 法 则 、 组 合 和 排列 


对 试验 结果 (样本 点 ) 进行 确认 和 计数 是 计算 概率 的 基础 。 下 面 ， 我 们 讨论 三 条 有 用 的 计数 法 则 。 
多 步骤 试验 (multiple-step experiment) ”第 一 条 计数 法 则 适用 于 多 步 双 试 验 。 考 虑 抛掷 两 枚 硬币 的 试验 ， 试 
验 结果 是 两 枚 硬币 朝 上 一 面 的 图 案 。 在 这 个 试验 中 ， 有 多 少 种 可 能 的 试验 结果 呢 ? 掷 两 枚 硬币 的 试验 可 以 视 为 一 
个 两 步骤 的 试验 : 第 1 步 是 抛 撕 第 一 枚 硬币 ,第 2 步 是 抛掷 第 二 枚 硬币 。 令 下 表示 正面 朝 上 ，7 表示 反面 朝 上 ， 
则 (五, H) 表示 第 一 枚 硬币 是 正面 朝 上 ， 第 二 枚 硬币 也 是 正面 朝 上 。 试 验 的 样本 空间 5 为 : 
全 全 有 
该 试验 有 四 种 可 能 的 结果 ， 可 以 轻而易举 地 列 出 所 有 的 试验 结果 。 
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仍 考虑 抛掷 两 枚 硬币 的 试验 ， 它 可 以 视 为 一 个 两 步 又 的 试验 。 抛 搓 第 一 枚 硬币 有 两 种 (n, =2) 不 同 的 结果 ， 抛 
掷 第 二 枚 硬币 也 有 两 种 (n, =2) 不 同 的 结果 ， 根 据 计 数 法 则 共有 2 x2 =4 种 不 同 的 试验 结果 ， 得 到 $ = | (8H,，H)， 
( 瓦 ，7T) ，(T， 万 ) ，(T，7) | 。 在 一 个 抛掷 6 枚 硬币 的 试验 中 ， 有 2 = 64 种 不 同 的 试验 结果 。 

树 形 图 (tree diagram) 是 一 种 帮助 分 析 多 步骤 试验 的 图 形 。 图 4-2 是 抛掷 两 枚 硬币 试验 的 树 形 图 。 由 左 到 右 






循序 经 过 两 个 步骤: 第 1 步 抛 擅 第 一 枚 硬币 ; 第 2 ， 。 步 台 2 ; 
步 折 指 第 二 枚 硬币 。 在 每 个 步 台中 ， 都 有 两 种 可 区 梧 |。 | 第- 枚 硬币 | 斌 办 结果 (样本 点 ) 
能 的 结果 一 一 正面 朝 上 或 者 反面 朝 上 ， 对 于 第 1 / TT 
步 里 的 每 一 种 结果 ， 都 有 两 个 分 枝 与 第 2 步 相对 
应 。 树 型 图 右 侧 的 每 一 个 节点 对 应 着 试验 的 一 种 
结果 。 从 树 型 图 左 侧 节点 通 往 右 侧 的 每 一 条 路 径 | i 
对 应 着 试验 的 一 种 结果 。 | 

现在 我 们 看 看 如 何 利 用 多 步 又 试验 计数 法 则 (nD 
分 析 肯 塔 基 光 电 (KP&L) 公司 的 一 个 扩容 工程 。 1 
KP&L 新 建 一 项 工程 ， 旨 在 增加 公司 在 肯塔基 北部 
的 一 家 工厂 的 发 电能 力 。 工 程 分 为 两 个 连续 的 阶 (TD 


段 或 步骤 进行 : 阶段 1 (设计 阶段 ) 和 阶段 2 ( 建 

设 阶段 ) 。 虽 然 每 个 阶段 都 制定 了 尽 可 能 详细 的 规 图 4- 他 抽 部 两 枚 本币 的 试验 中 的 栅 形 国 

划 ， 但 是 管理 人 员 仍 然 无 法 确切 预知 该 项 工程 各 个 阶段 完工 的 精确 时 间 。 对 同类 建筑 工程 的 分 析 显示 ， 设 计 阶 段 
可 能 需要 2、3 或 4 个 月 ， 而 建设 阶段 完工 可 能 需要 6、7 或 8 个 月 。 此 外 ， 由 于 对 新 增 电力 的 急迫 需求 ， 管 理 人 
员 计划 整个 工程 在 10 个 月 内 完工 。 

由 于 项 目 在 设计 阶段 〈 步 又 1) 所 需 时 间 有 3 种 可 能 ， 建 设 阶 段 (步骤 2) 所 需 时 间 也 有 3 种 可 能 ， 由 多 步 
又 试验 计数 法 则 可 知 ， 总 共有 3 x3 =9 种 试验 结果 。 我 们 用 一 对 数字 来 记录 试验 结果 ， 比 如 ，(2，6) 表示 设计 
阶段 需要 2 个 月 完成 ， 建 设 阶段 需要 6 个 月 完成 ， 即 完成 整个 工程 总 共 需 要 2 +6 = 8 个 月 。 在 表 4-1 中 汇总 了 
KP&L 问题 中 的 9 种 试验 结果 。 图 4-3 是 树 形 图 ， 由 此 可 见 这 9 种 结果 (样本 点 ) 是 如 何 产生 的 。 

计数 法 则 和 树 形 图 能 够 帮助 项 目 经 理 确定 试验 结果 ， 并 确定 工程 完工 所 需 时 间 的 概率 。 由 图 4-3 可 见 ， 工 程 
完工 可 能 需要 8 至 12 个 月 ， 在 9 种 结果 中 有 6 种 能 保证 工程 在 10 个 月 内 完工 。 除 了 确定 试验 结果 ， 我 们 还 要 考 
虑 如 何 为 各 个 试验 结果 分 配 概率 值 ， 以 便 最 终 评估 工程 在 预期 的 10 个 月 以 内 完工 的 可 能 性 有 多 大 。 

表 4-1 KP&L 项 目的 试验 结果 (样本 点 ) 


完工 时 间 (月 ) 试验 结果 项 目 总 的 完工 完工 时 间 (月 ) 试验 结果 项 目 总 的 完工 
阶段 1 设计 阶段 2 建设 时 间 (月 ) 阶段 1 设计 阶段 2 建设 (样本 点 ) 时间 (月) 

2 6 (2, 6) 8 3 8 (3, 8) 11 

2 7 (2 9 4 6 (4, 6) 10 

2 8 (22， ,8 10 4 (二 ， 史 ) 11 

3 6 《3，6) 9 上 8 (4, 8) 12 

3 7 (3 my 10 


加 ”如果 不 利用 树 形 图 ， 我 们 可 能 认为 抛掷 2 枚 硬币 总 共有 3 种 试验 结果 : 0 个 正面 、1 个 正面 和 2 个 正面 。 
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| I 
| | 
设计 建设 (样本 点 ) 时 间 
| ed 8 月 
| Es | 
DC (2,7) 9 月 
| RN | 
| 
CE (2, 8) 10 月 
pe : 
\ (3, 6) 9 
me r 
| 1 
3 mo , 7 mo. (3.7) 10 月 
| § mo | 
Se 
| (3, 8) 11 月 
| il 
本 | I 
| 1 
E - (4, 6) 10 月 
1 [BY 1 
I | 
Le. 1 11 月 
I 8 I 
| | 
| (4, 8) 12 月 


图 4-3 KP&P 项 目的 树 形 图 


组 合 S(combi ations) ”在 从 入 (通常 比较 大 ) 项 中 选取 n 项 的 试验 中 ， 还 有 男 一 种 计数 法 则 可 以 用 于 确定 试 
内 结果 的 数目 我 们 称 这 种 计数 法 则 为 组 合计 数 法 则 。 | 








符号 “1” 未 例如 ,5 的 阶乘 记 作 5i SAI l=120. 
下 面 ， 以 质 检 为 例 说 明 如 何 使 用 组 合计 数 法 则 。 。 和 假定 质 检 估 员 要 从 5 个 零件 中 随机 抽取 2 个 零件 进行 检查 ， 
共有 和 多少 种 不 同 选 法 呢 ? 此 时 N=5, n=2， vi (4-1) 的 组 合计 数 法 则 ， 可 得 : 
6=()): 5 Xx4x3x2x1 = 


因此 ， 从 一 组 5 个 零件 中 随机 选取 2 个 零件 ， 共 有 -10 种 可 能 的 试验 结果 。 如 果 我 们 把 这 5 个 零件 分 别 标号 为 4、 


名 ”从 一 个 容量 为 的 疙 体 中 选取 容量 为 的 样本 时 ， 可 以 利用 继 合 计数 法 则 计算 样本 的 数目 。 
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B8、C、D 和 E， 那么 这 10 种 组 合 或 试验 结果 分 别 为 4B、AC、AD、AE、 BC、BD、BE、 CD、 CE 和 DE。 
" 再 比如 ， 佛 罗 里 达州 彩票 发 行 系统 每 周 从 53 个 数码 中 随机 抽取 6 个 作为 本 周 的 中 奖 号 码 。 利 用 式 (4-1) 的 
组 合计 数 法 则 ， 可 以 确定 从 53 个 数 中 随机 抽取 6 个 数 有 多 少 种 不 同 的 方式 。 


53)_ S53! 53! _53x52x5lx50x49x48 - 
(= OM 一 -一 和 2 ee 


组 合计 数 法 则 说 明 ， 在 彩票 抽奖 中 大 约 有 2 300 多 万 种 不 同 的 试验 结果 “。 购 买 一 张 彩票 中 奖 的 可 能 性 仅 为 
1/22 957 480 。 

排列 (permutalions) ”第 三 种 常用 计数 法 则 是 排列 ， 当 从 w 项 中 选取 ”项 并 且 考 虑 选取 的 顺序 时 ( 即 对 于 选 
出 的 nn 项 ,不 同 的 选择 顺序 被 认为 是 不 同 的 试验 结果 ) ， 排 列 可 用 于 计算 有 多 少 种 不 同 的 试验 结果 。 









排列 计数 法 则 与 组 合计 数 法 则 具有 密切 的 联系 。 由 于 任意 选取 的 n 项 共有 ml 种 不 同 的 排序 方式 ， 从 而 P* 总 
是 大 于 C*。 比 如 ， 在 上 述 质 量 检验 的 例子 中 ， 质 检 人 员 从 5 个 零件 中 随机 抽取 2 个 零件 进行 检查 ， 则 有 多 少 种 排 
列 呢 ? 此 时 到 =5; n=2， 由 排列 计数 法 则 式 (4-2) 可 得 : 


因此 ,在 考虑 顺序 的 情况 下 ， 从 5 个 零件 中 随机 抽取 2 个 共有 20 种 不 同 的 结果 。 如 果 我 们 把 这 5 个 零件 分 别 标号 
为 A、B、C、D 和正， 那么 这 20 种 排列 分 别 为 4B、B4、AC、CA、AD、DA、AE、EA4、BC、 CB、 BD、 DB BE.、 
PE、0CD、DC、CE、RC LE ED 


4. 1.2 概率 分 配 


“现在 我 们 来 看 一 看 如 何 为 试验 结果 分 配 概率 。 古 典 法 、 相 对 频数 法 和 主观 概率 法 是 最 为 常用 的 三 种 方法 。 无 
论 采用 何 种 方法 ， 都 必须 满足 概率 分 配 的 两 个 基本 条 件 (basic requirements for assigning probabilities) 。 






古典 法 (classical method) 当 各 种 试验 结果 是 等 概率 发 生 时 ， 适 合 采 用 古典 法 进行 概率 分 配 。 如 果 某 一 试验 
有 半 个 可 能 的 试验 结果 ， 则 为 每 个 试验 结果 分 配 的 概率 均 为 1Xn。 这 种 方法 下 ， 概 率 分 配 的 两 个 基本 条 件 都 成 立 。 
比如 : 在 抛 撞 一 枚 均匀 硬币 的 试验 中 ， 有 两 种 试验 结果 (正面 或 反面 朝 上 ) ， 并 且 这 两 种 结果 出 现 的 可 能 性 
相等 。 因 此 ， 正 面 朝 上 的 概率 为 1/2。 同 理 ， 反 面 朝 上 的 概率 也 是 1/2。 
再 比如 : 在 抛掷 一 枚 色 子 的 试验 中 ，6 种 试验 结果 发 生 的 可 能 性 是 均等 的 ， 因 而 为 每 种 试验 结果 分 配 的 概率 都 
是 176。 若 以 P(U1L) 表示 朝 土 的 一 面 为 1 点 的 概率 ， 则 P(1) =1/6。 同 理 , P(2) =1/6, P(3) =1/6, P(4) =1/6, 
P(5) =176，P(6) =1/6。 可 见 ， 上 述 概 率 都 满足 式 (4-3) 和 式 (4-4) 这 两 个 概率 分 配 的 基本 条 件 一 一 每 个 概 


日 ”由 组 合计 数 法 则 可 知 ， 这 类 彩票 中 奖 机 会 微乎其微 。 


92 商务 与 经 济 统计 


率 值 都 大 于 或 者 等 于 0， 并且 这 些 概率 之 和 为 1。 

相对 频数 法 (relative frequeney method) 相对 频数 法 适用 于 试验 可 以 大 量 重复 进行 ， 并 且 能 取得 试验 结果 发 生 
比率 的 数据 。 比 如 ， 研 究 某 地 方 医院 X 光 检 查 的 候诊 人 数 ， 记录 每 天 上 午 9 点 的 候诊 人 数 ， 得 到 以 下 连续 20 天 
的 记录 。 


候诊 人 数 天 数 


0 
1 
2 
3 
未 


Dn 


合计 2 


以 上 数据 显示 ,在 20 天 中 有 2 天 没有 患者 候诊 ， 有 5 天 有 1 名 患者 候诊 ， 等 等 。 根 据 相 对 频率 法 ， 为 “没有 
患者 候诊 ”分 配 概率 2/20 =0.1, 为 “有 1 名 患者 候诊 ”分 配 概率 5/20 =0.25， 为 “有 2 名 患者 候诊 ”分 配 概率 
6/20=0.3, 为 “有 3 名 患者 候诊 ”分 配 概率 4/20 =0.2, 为 “有 4 名 患者 候诊 ”分 配 概率 3/20 =0. 15。 可 见 ， 相 
对 频数 法 与 古典 法 一 样 ， 也 满足 式 (4-3) 和 式 (4-4) 这 两 个 概率 分 配 的 基本 条 件 。 

主观 法 (subjective method) 当 不 能 假定 试验 结果 是 等 可 能 发 生 或 者 无 法 取得 相关 数据 时 ， 可 以 采用 主观 法 为 
试验 结果 分 配 概率 。 在 采用 主观 法 为 试验 结果 分 配 概 率 时 ， 可 以 利用 一 切 可 以 获得 的 信息 ， 比 如 我 们 的 经 验 和 直 
觉 。 当 考虑 所 有 可 获得 的 信息 后 ， 主 观 法 为 试验 结果 分 配 一 个 ( 介 于 0 和 1 之 间 的 ) 概率 值 ， 用 以 表达 对 各 个 试 
验 结果 发 生 的 可 信 程 度 。 由 于 主观 法 表达 的 是 某 个 人 的 置信 和 度 ， 它 会 因 人 而 异 : 在 主观 法 中 ， 不 同 的 人 会 对 同一 
试验 结果 给 出 不 同 的 概率 值 。 

主观 法 要 求 特别 注意 保证 式 (4-3) 和 式 (4-4) 这 两 个 基本 条 件 成 立 。 无 论 某 人 的 可 入 程度 有 多 大 ， 对 每 一 
试验 结果 分 配 的 概率 值 都 必须 在 0 与 1 之 间 ， 并 且 所 有 试验 结果 的 概率 值 之 和 必须 等 于 1。 

例如 ， 汤 姆 . 埃 尔 斯 本 德 和 和 朱 迪 ，… 埃 尔 斯 本 德 申请 购买 一 所 住房 ， 有 两 种 可 能 的 结果 : 

E, = 申请 获得 批准 
E, = 申请 被 驶 回 

朱 迪 认为 申请 获得 批准 的 可 能 性 为 0.8， 因 此 她 令 P(E,) =0.8，P(E,) =0.2。 但 汤姆 认为 申请 获得 批准 的 可 
能 性 为 0.6， 从 而 他 令 P(E,) =0.6，P(E,) =0.4。 汤 姆 对 记 , 概 率 的 估计 反映 了 他 对 申请 获准 持 更 消极 的 态度 。 

汤姆 和 朱 迪 所 估计 的 主观 概率 都 满足 式 (4-3) 和 式 (4-4) 这 两 个 基本 条 件 。 虽 然 他 们 三 人 给 出 了 不 同 的 概 
率 估计 ， 但 这 恰恰 体现 了 主观 概率 法 的 个 性 化 特征 。 

在 商务 应 用 中 ， 即 便 在 古典 法 或 者 相对 频数 法 适用 的 情况 下 ,管理 人 员 可 能 仍 希 望 提供 主观 概率 估计 。 此 
时 ， 将 古典 法 或 相对 频数 法 的 估计 与 主观 概率 估计 相 结合 ， 可 得 到 相应 概率 的 最 佳 估计 。” 


4. 1.3 肯塔基 光电 公司 (KP&L) 项 目的 概率 

为 了 深入 分 析 KP&L 公司 项 目 ， 我们 必须 为 表 4-1 中 9 种 试验 结果 分 配 概率 。 管 理 层 基 于 经 验 和 判断 ， 认 为 
各 种 试验 结果 并 非 等 可 能 发 生 。 因 此 ， 不 能 使 用 古典 法 分 配 概率 。 于 是 ， 管 理 层 决 定 对 该 公司 在 最 近 三 年 中 同类 
工程 的 完工 时 间 进 行 研究 , 表 4-2 中 汇总 了 对 40 项 类 似 项 目的 研究 结果 。 

在 浏览 了 研究 结果 以 后 ， 管 理 层 决定 采用 相对 频数 法 分 配 概率 。 本 来 ,管理 层 还 可 以 使 用 主观 法 分 配 概率 ， 
但 是 他 们 觉得 当前 的 工程 与 以 前 进行 的 40 项 工程 十 分 相似 ， 因 此 认为 相对 频数 法 更 优 。 

在 利用 表 4-2 中 的 数据 计算 概率 时 ， 试 验 结果 (2, 6) 表示 项 目 在 阶段 1 用 2 个 月 和 阶段 2 用 6 个 月 完工 ， 
我 们 注意 到 在 40 个 项 目 中 (2, 6) 发 生 了 6 次 。 根据 相对 频数 法 ， 为 这 一 试验 结果 分 配 概率 6/40 =0.15。 类 似 
地 ， 试 验 结果 (2,，7) 在 40 项 工程 中 也 发 生 了 6 次 ， 它 的 概率 即 为 6/40 =0. 葬 。 类 似 地 ， 我 们 可 以 为 表 4-3 中 


名” 贝 叶 斯 定理 ( 见 第 4.5 节 ) 将 主观 确定 的 先 验 概率 与 其 他 方法 得 到 的 概率 相 结 合 , 得 到 修正 的 后 验 概 率 。 
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KP&L 公司 项 目的 每 个 样本 点 分 配 概率 。 注 意 ; 符号 P(2，6) 表示 样本 点 (2, 6) 的 概率 ，P(2, 7) 表示 样本 
颈 (2 7) 的 概率 ， Ey 以 此 类 推 。 
表 4-2 40 项 KP&L 公司 工程 的 完工 结果 


完工 时 间 (月 ) 
pn 阶段 2 建设 样本 点 以 往 工 程 数 目 

2 6 (2, 6) 6 

(2 3 6 
2 8 (Co) 2 
3 6 (3 他 大 4 
3 y (3 27) 8 
3 8 (3, 8) 2 
4 6 (4, 6) 2 
4 7 (4, 7) 4 
4 8 (4, 8) 6 

合计 40 


表 4-3 利用 相对 频数 法 为 KP&L 公司 项 目 分 配 概率 


样本 点 工程 完工 时 间 (月 ) 样本 点 的 概率 
(2,16) 8 P(2, 6) =6/40 =0. 15 
£7 9 P(2, 7) =6/40 =0. 15 
ta. A 10 P(2, 8) =2/40 =0. 05 
(3, 6) 9 P(3，6) =4/40 =0, 10 
ee A 10 P(3, 7) =8/40 =0. 20 
(3. 8) 11 P(3, 8) =2/40 =0. 05 
(4, 6) 10 P(4, 6) =2/40 =0. 05 
(4,，7) 11 P(4, 7) =4/40 =0, 10 
(4, 8) 12 P(4，8) =6/40 =0.15 

合计 1.00 

注释 和 评论 


1. 在 统计 学 中 ， 试 验 的 概念 与 自然 科学 中 试验 的 概念 稍 有 不 同 。 在 自然 科学 中 ， 试 验 通常 是 在 试验 室 或 者 人 
工控 制 的 环境 中 进行 ， 目 的 是 研究 因果 关系 和 效果 。 在 统计 学 试验 中 ， 结 果 由 概率 决定 5 即使 试验 在 完全 
相同 的 条 件 下 重复 进行 ， 也 可 能 会 获得 完全 不 同 的 结果 。 由 于 概率 对 试验 结果 的 影响 ， 有 时 也 将 统计 学 上 
的 试验 称 为 随机 试验 。 

2. 在 从 容量 为 N 的 总 体 中 无 效 回 随机 抽取 一 个 容量 为 元 的 样本 时 ， 应 该 采用 组 合计 数 规则 来 计算 有 多 少 个 不 
同 的 样本 。 











1 由 让 a 所 
出 pi! 人 三 J 
hd 


jon 0 an. jh 
方法 复 50 次， 其 中 慷 出 现 20 次 ,EB, 出 现 13 次 ,EE 出 现 
太 2. 6 个 项 目 组 成 一 组 ， 从 中 任 取 3 项 ， 共 有 多 少 种 取 17 次 。 请 为 每 种 试验 结果 分 配 概率 。 你 采用 哪 种 方 
法 ? 以 字母 4、B、C、D、 和 分 别 表示 这 6 项， 法 分 配 概率 ? 
请 列 出 所 有 可 能 的 组 合 。 应 用 
4. 考虑 将 一 枚 硬币 抛 搬 3 次 的 试验 。 8, 在 米尔 福 德 市 ， 申 请 改变 城市 区 划 需 要 经 过 计划 委 
a. 通 出 试验 的 树 形 图 。 员 会 审议 和 市 政委 员 会 最 终 决 定 这 两 个 步骤 后 方 能 
b. 列 出 试验 的 各 种 结果 。 实现 。 在 第 1 阶段， 计划 委员 会 审议 改变 城市 区 划 
c. 计算 每 种 试验 结果 的 概 闪 。 的 申请 ， 并 给 出 支持 或 反对 的 意见 。 在 第 2 阶段 ， 


女 6. 某 项 试验 有 3 种 结果 ; EE 、E, 和 Es， 现 将 该 试验 重 市 政委 员 会 对 计划 委员 会 的 意见 进行 投票 ， 批 准 或 
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否决 改变 城市 区 划 。 假 定 菜 房地产 开发 商 递 交 了 一 

份 申 请 ， 要 求 改变 城市 区 划 。 

a. 车 将 申请 程序 视 为 一 个 试验 ， 则 在 这 个 试验 中 有 
多 少 个 样本 点 ? 请 列 出 这 些 样本 点 。 

b. 画 出 试验 的 树 形 图 。 


交 10. 许多 学 生 在 大 学 毕业 前 都 有 负债 。 下 表 中 是 来 自 4 所 大 


学 和 4 所 人 文学 院 毕 业 生 的 负债 比率 和 负债 金额 (《 美 
国 新 闻 和 世界 报道 )《 美 国 最 好 的 大 学 》，2008 年 )。 


负债 率 负债 金额 
人 (%) (美元 ) 
佩斯 72 32 980 
爱 荷 华 州立 69 32 130 
马萨诸塞 55 11 227 
纽约 州立 大 学 阿尔 尼 分 校 64 11 856 
负债 率 负债 金额 
罕 缠 (%) (美元 ) 
瓦尔 特 堡 83 28 758 
莫 尔 豪 斯 94 27 000 
卫斯理 女子 学 院 55 10206 
伍 夫 德 49 11012 


a、 如 果 随 机 选取 一 名 莫 尔 之 斯 学 院 的 毕业 生 ， 则 


他 (她 ) 毕业 时 负债 的 概率 是 多 少 ? 

b. 在 随后 关于 学 生 贷 款 的 研究 中 ， 如 果 你 从 8 所 
科研 院 校 中 随机 选取 一 所 ， 其 学 生 毕 业 时 的 负 
债 率 超过 60% 的 概率 是 多 少 ? 

c. 在 随后 关于 学 生 贷 款 的 研究 中 ， 如 果 你 从 8 所 
科研 院 校 中 随机 选取 一 所 ， 则 其 学 生 毕 业 时 负 


4.2 事件 及 其 概率 


12. 


债 金额 的 均值 高 于 30 000 美元 的 概率 是 多 少 ? 
d. 一 名 佩斯 大 学 的 毕业 生 没 有 负债 的 概率 是 多 少 ? 
e, 在 佩斯 大 学 毕业 时 负债 的 学 生 中 ， 负 债 额 的 均 

值 为 32 980 美元 。 佩 斯 大 学 的 所 有 毕业 生 中 ， 

毕业 生 的 人 均 负 债 是 多 少 ? 

在 美国 的 28 个 州 及 维尔 金 群岛 和 哥伦比亚 地 区 ， 
强力 球 六 合 彩 每 周 摇 奖 两 次 。 彩 票 的 规则 如 下 : 投 
注 者 首先 购买 一 张 彩票 ， 然 后 从 1 ~55 个 数字 中 选 
5 个 数 ， 再 从 1 ~42 个 数字 中 选 1 个 数 作为 强力 球 
号 码 。 每 次 扬 奖 时 ， 彩 票 官员 从 装 有 55 个 白 球 的 
圆 桶 中 抽出 5 个 白 球 ， 再 从 装 有 42 个 红 球 的 圆 桶 
中 抽出 1 个 红 球 。 要 想 获 得 头等 奖 ， 投 注 者 所 选 数 
字 必 须 与 抽出 的 五 个 白 球 上 的 数字 相同 (顺序 可 
以 秒 同 ) 且 所 选 强力 球 号 码 与 抽出 的 红 球 上 的 数 
字 相 同 。2006 年 2 月 18 日 内 布 拉 斯 加 州 林肯 市 
康 尼 格拉 食品 公司 的 8 名 员工 获得 头等 奖 ， 奖 金 共 
计 3.65 亿美 元 ， 他 们 的 中 奖 号 码 为 15-17-43-44- 
49， 强 力 球 号 码 为 29。 除 去 头等 奖 之 外 ， 每 期 还 
有 其 他 形式 的 现金 奖 。 比 如 ， 如 果 所 选 数字 与 抽出 
的 5 个 白 球 上 的 号 码 一 致 ， 则 能 够 获得 200 000 美 
元 的 奖金 (powerball 网 站 ，2006 年 3 月 19 日 )。 

a. 抽出 的 5 个 白 球 上 的 号 码 有 多 少 种 不 同 的 方式 ? 
b. 与 抽出 5 个 白 球 上 的 号 码 一 致 ， 获 得 200 000 美 

元 奖金 的 概率 是 多 少 ? 
c. 获得 强力 球 六 合 彩 头等 奖 的 概率 是 多 少 ? 


在 本 章 绪 论 中 ， 我 们 对 术语 “事件 ”的 运用 仍 限于 日常 用语 中 的 含义 。 在 第 4. 1 节 中 ， 我 们 给 出 了 有 关 试 验 
以 及 与 之 相 联系 的 试验 结果 (样本 点 ) 的 概念 。 样 本 点 和 事件 是 研究 概率 论 的 基础 。 因 此 ， 下 面 必 须 给 出 与 样本 
点 相对 应 的 事件 (event) 一 个 正式 的 定义 。 这 是 确定 事件 的 概率 的 基础 。 


比如 ， 在 KP&L 公司 项 目的 问题 中 ， 假 设 项 目 经 理 所 关心 的 是 事件 “整个 工程 可 以 在 10 个 月 以 内 完工 "。 由 










表 4-3 可 见 ,， 有 6 个 入 本 点 一 一 (2, 6),， (2, 7),，(2, 8)3 (3; 6)5 (3, 7) 和 和 “(4,-€) 可 以 保证 工程 在 
10 个 月 以 内 完工 。 令 C 表示 事件 “工程 可 以 在 10 个 月 以 内 完工 ”， 则 
C = 1(2,6),(2,7),(2,8),(3,6),(3,7),(4,6)1| 
如 果 上 述 6 个 样本 点 中 的 任何 一 种 试验 结果 出 现 ， 则 称 事件 C 发 生 。 
KP&L 公司 管理 层 所 关心 的 事件 还 包括 : 
五 = 事件 “工程 完工 时 间 少 于 10 个 月 ” 

用 = 事件 “工程 完工 时 间 多 于 10 个 月 ” 

运用 表 4-3 的 信息 ， 可 见 上 述 事 件 含有 以 下 样本 点 : 
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了 三 列 (256) 人 289) 356)  M = 46358),(437) (4,8)| 
对 于 KP&L 公司 的 项 目 ,， 还 可 以 定义 许多 其 他 事件 ， 但 对 每 一 事件 来 说 ， 它 都 是 试验 中 若干 个 样本 点 的 集合 。 
根据 表 4-3 列 出 的 各 样本 点 的 概率 ， 我 们 可 以 利用 下 面 的 定义 计算 KP&L 公司 管理 层 所 关心 的 任 


mm 
so er 






利用 这 一 定义 ,我 们 可 以 将 某 个 特定 事件 中 所 有 样本 点 (试验 结果 ) 的 概率 相 加 来 计算 事件 的 概率 。 现 在 ， 
我 们 来 计算 “工程 可 以 在 10 个 月 以 内 完工 ”这 一 事件 的 概率 。 由 于 事件 C=| (2, 6), (2, 7), (2, 8), (3, 6)， 
(3, 7),，(4, 6)|; 令 P(C) 表示 事件 C 的 概率 ， 有 

P(C) = P(2,6) + P(2,7) + P(2,8) + P(3,6) + P(3,7) + P(4,6) 
根据 表 4-3 中 样本 点 的 概率 可 知 
P(C) = 0.15 +0.15 +0.05 +0.10+0.20+0.05 = 0.70 
类 似 地 ， 对 于 事件 “工程 完工 时 间 少 于 10 个 月 ， 有 ZL= | (2, 6)，(2, 7),，(3,，6)|}， 从 而 事件 的 概率 为 
P(L) = P(2,6) + P(2,7) + P(3,6) = 0.15 +0.15 +0.10 =10.340 
最 后 ， 对 于 事件 “工程 完工 时 间 多 于 10 个 月 ", 有 必 = { (3, 8), (4, 7)，(4, 8)| ， 因 此 
P(M) = P(3,8) + P(4,7) + P(4,8) = 0.05 +0.10 +0.15 = 0.30 

根据 上 述 结 果 可 知 ，KP&L 公司 在 10 个 月 或 10 个 月 以 内 完成 工程 的 概率 是 0.70， 完工 时间 少 于 10 个 月 的 概 
率 是 0. 40， 而 完工 时 间 多 于 10 个 月 的 概率 是 0. 30。 对 于 公司 管理 层 所 关心 的 其 他 事件 ， 可 以 重复 上 述 计算 过 程 
求 得 事件 的 概率 。 

只 要 我 们 能 够 确认 一 个 试验 的 所 有 样本 点 并 且 为 其 分 配 概 率 ， 我 们 就 能 够 根据 定义 来 计算 某 一 事件 的 概率 。 
但 是 ， 若 试验 中 存在 大 量 的 样本 点 ， 则 会 使 得 确认 样本 点 和 分 配 概率 这 一 工作 变 得 虽然 不 是 不 可 能 但 却 相当 繁 
重 。 在 本 章 余 下 的 各 节 中 ， 我 们 将 介绍 概率 的 一 些 基本 性 质 ， 根 据 这 些 性 质 可 以 在 不 必 知 道 每 个 样本 点 概率 的 情 
况 下 计算 事件 的 概率 。 


注释 和 评论 
1. 样本 空间 8 是 一 个 事件 。 由 于 它 包 含 了 所 有 的 试验 结果 ， 它 的 概率 为 1， 即 P(S) =1。 


2. 应 用 古典 法 分 配 概率 时 ， 假 设 试验 结果 是 等 可 能 发 生 的 。 在 这 种 情况 下 ， 某 一 事件 的 概率 等 于 这 一 事件 所 
包含 试验 结果 的 数目 除 以 试验 结果 总 数 。 





、 列 出 样本 点 。 


方法 b 
14. 某 项 试验 有 4 种 等 可 能 发 生 的 结果 : 玉 ,、 五 ;、 本 和 c “两 数 之 和 为 7” 的 概率 是 多 少 ? 
bo 求 : d. “两 数 之 和 大 于 或 者 等 于 9” 的 概率 是 多 少 ? 
a ,发生 的 概率 是 多 少 ? e， 由 于 所 有 和 数 中 包括 6 个 偶数 (2，4，6，8， 
b. 任意 两 种 试验 结果 (比如 : 己 或 ) 发 生 的 概 10 和 12) 和 5 个 奇数 (3, 5,，7;，9 和 11),， 从 
率 是 多 少 ? 而 偶数 出 现 的 可 能 性 比 奇 数 更 大 。 你 是 否 同 意 
c. 任意 三 种 试验 结果 (比如: 媚 或 已 或 已 ) 发 生 上 述 观 点 ? 试 解释 原因 。 
的 概率 是 多 少 7 f 你 使 用 什么 方法 来 分 配 概率 ? 
16. 在 投掷 一 对 色 子 的 试验 中 ,假定 关注 的 是 两 析 色 ”应 用 
子 朝 上 一 面 的 点 数 之 和 。 18. 为 调查 家 庭 在 家 就 餐 情 况 ， 哈里 斯 互动 对 496 名 与 
a 共有 多 少 种 可 能 的 样本 志 ? (提示 : 利用 多 步骤 18 周岁 以 下 孩子 共同 生活 的 成 人 进行 调查 (《 今 日 


试验 计数 法 则 。) 美国 》，2007 年 1 月 3 日 )。 调查 结果 见 下 表 。 
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每 周 在 家 调查 中 受 访 | 每 周 在 家 ”调查 中 受 访 下 表 中 数据 是 500 强 企业 数目 最 多 的 五 个 州 中 500 
就 餐 的 次 数 者 人 数 ”| 就 餐 的 次 数 者 人 数 强 企 业 的 数目 【了 ec New York Almanac，2006 年 ) 。 





随机 选择 一 个 与 18 周岁 以 下 孩子 共同 生活 的 家 庭 ， 


试 求 : 假定 从 500 强 企业 中 选取 一 家 公司 进行 跟踪 调查 ， 

a. 一 周 中 未 在 家 就 餐 的 概率 。 求 下 列 事件 的 概率 。 

b. 一 周 中 至 少 在 家 就 餐 4 次 的 概 闵 。 a. 令 丸 = | 公司 总 部 位 于 纽约 州 | ， 求 P(N)。 

c. 一 周 中 至 多 在 家 就 餐 2 次 的 概率 。 b. 令 了 = | 公司 总 部 位 于 得 克 萨 斯 州 | ， 求 P(T)。 
20.《 财 富 》 杂志 公布 了 美国 ,500 强 企业 的 年 度 :名 单 。 8. 令 B= [公司 总 部 位 于 以 上 五 个 州 之 一 | ， 求 P(B)。 
4.3 概率 的 基本 性 质 
4. 3. 1 事件 的 补 


给 定 一 个 事件 4， 定义 事件 A 的 补 (complement of A) 为 “所 有 不 包含 在 事件 中 的 样本 点 ” ， 记 为 4"。 图 4-4 
称 为 文 民 图 (venn diagram) ， 它 用 来 说 明 补 的 概念 。 其 i 
中 ， 算 形 区 域 表示 试验 的 样本 空间 ， 它 包含 了 所 有 可 能 
的 样本 点 ， 圆 形 区 域 表示 事件 4， 它 只 包含 了 4 中 的 样 
本 点 ; 矩形 中 的 阴影 部 分 是 所 有 未 包含 在 4 中 的 样本 于 4 
点 ， 记 做 丰 。 

在 任何 概率 应 用 中 ， 事 件 4 和 它 的 补 4" 必 有 一 个 发 | 
人 图 4-4 事件 4 的 补 

Pedy .REA = 1 

求解 P(4)， 有 如 下 结论 。 








式 (4-5) 表明 ， 如 果 已 知事 件 4 的 补 的 概率 P(4") ， 就 能 容易 地 计算 出 事件 4 的 概率 。 
比如 ， 假 定 销售 经 理 在 看 完 销售 报告 后 发 现 ， 新 客户 的 合同 中 有 80% 并 未 成 交 。 令 事件 4 表示 “合同 成 交 ”， 
4 来 表示 “合同 没有 成 交 ”， 该 经 理 认 为 P(A4*) =0.8， 利 用 式 (4-5),， 有 
P(A) = 1 =P(A) = 1 =0.80 =0.20 
我 们 可 以 得 出 结论 ， 认 为 新 客户 的 合同 中 有 20% 成 交 。 
再 比如 ， 假 设 某 采购 部 门 认为 供 货 商 运 来 的 货物 中 无 残 次 品 的 概率 为 90% ， 利 用 式 (4-5) ,我 们 可 以 推断 货 
物 中 有 残 次 品 的 概率 为 1-0.90 =0.10。 


4. 3.2 ”加 法 公式 


当 求 两 个 事件 中 至 少 有 一 个 事件 发 生 的 概率 时 ， 加 法 公式 非常 有 用 。 也 就 是 说 ， 对 于 两 个 事件 4 和 BB， 我 们 
希望 知道 事件 4 或 事件 B 或 两 者 都 发 生 的 概率 时 ， 常 常 采 用 加 法 公式 。 

在 讲述 加 法 公式 之 前 ， 我 们 需要 首先 讨论 与 事件 关系 有 关 的 两 个 概念 : 事件 的 并 和 事件 的 交 。 对 两 个 事件 4 
和 事件 B， 定 义 事件 A 和 事件 BB 的 并 (union of 4 and B) 如 下 : 
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图 4-5 的 文 开 图 本 给 了 事件 4 和 B 的 并 。 注 意 ; 本 不 辐 迁 大 培 包 二 让 机 汪 末 他 4 和 事件 B 的 所 有 样本 点 。 这 
两 个 圆 形 x 域 是 有 重生 的 ， 这 说 明 有 一 些 样本 点 是 既 属 于 事件 4 又 属于 事件 下 的 。 
定义 事件 A 和 事件 BB 的 交 (intersection of 4 and B) 如 下 : 








图 4-6 的 文 氏 图 描述 了 4 和 B 的 交 。 图 中 两 个 圆 形 区 域 相互 重 敬 的 部 分 即 为 两 个 事件 的 交 ， 由 同时 属于 4 和 
8B 的 样本 点 组 成 。 | 





图 4-5 阴影 部 分 是 事件 4 和 事件 B 的 并 图 4-6 ”阴影 部 分 是 事件 4 和 事件 8 的 交 
下 面 继 续 介绍 加 法 公式 。 加 法 公式 (addition law) 提供 了 一 种 计算 “事件 4 发 生 或 8 发 生 或 4、B 同时 发 生 ” 
的 概率 的 方法 。 也 就 是 说 ， 加 法 公式 用 来 计算 两 个 事件 的 并 的 概率 。 加 法 公式 可 以 写成 如 下 形式 : 





从 直观 上 看 ， 加 法 公式 右边 的 前 两 项 P(4) 寺 PC(B) 已 经 包含 了 所 有 4UB 的 样本 点 。 但 是 由 于 AMB 内 的 样 
本 点 既 属 于 4 又 属于 B， 在 计算 P(4) + P(B) 时 4AMmB 内 的 样本 点 被 计算 了 两 次 。 因 此 ， 需 从 中 减 去 P(4mB)， 
对 重复 计算 进行 修正 。 
作为 一 个 加 法 公式 的 实际 应 用 例子 ， 我 们 考虑 一 个 有 50 名 工人 的 小 型 装配 厂 。 每 个 工人 都 必须 按时 完成 工 
作 定 额 ， 并 且 使 所 装配 的 产品 通过 最 终 检 验 。 有 时 ， 一 些 工 人 由 于 没 能 按时 完成 工作 或 者 因为 装配 的 产品 不 合格 
而 没有 达到 工作 标准 。 在 期 末 的 绩效 评估 中 ， 生 产 经 理发 现 50 名 工人 中 有 5 人 未 能 按时 完成 工作 ，6 人 装配 的 产 
品 不 合格 ，2 人 既 没 能 按时 完成 工作 又 存在 装配 不 合格 的 问题 。 
L = | 未 能 按时 完成 工作 | DD = | 装配 的 产品 不 合格 | 
根据 相对 频数 法 ， 有 
P(L)= 5/50 = 0.10 
pss 
P(E NM D)= 2/50 = 0.04 
生产 经 理 在 浏览 了 工作 绩效 数据 后 ， 决 定 在 绩效 评分 中 对 所 有 未 能 按时 完成 工作 或 者 装配 的 产品 不 合格 的 工 
人 给 予 低 分 。 经 理 所 关心 的 事件 为 LUD。 生 产 经 理 为 事件 “绩效 评分 是 低 分 ”分 配 的 概率 是 多 少 ? 
求 两 个 事件 的 并 的 概率 。 尤其 是 ， 我 们 希望 求 出 P(LUD)。 利 用 式 (4-6) ， 有 
POL WY DY =P(L) + P(D) =- P(LN D) 
等 式 右边 的 三 个 概率 值 均 为 已 知 ， 可 得 
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RCEWD) = 10+0, 12 -0.04 = 0. 18 
这 一 结果 告诉 我 们 ， 若 随机 选取 一 名 工人 则 他 的 绩效 评分 是 低 分 的 概率 为 0. 18。 
考虑 加 法 公式 的 另 一 个 例子 。 某 大 型 计算 机 软件 公司 人 事 部 经 理 最 近 做 了 一 项 调查 ， 他 发 现 近 两 年 内 离职 的 
公司 雇员 中 有 30% 的 人 是 因为 对 工资 不 满意 ， 有 20% 的 人 是 因为 对 分 配 的 工作 不 满意 ，12% 的 人 是 因为 对 工资 和 
分 配 的 工作 都 不 满意 。 那 么 在 两 年 内 离职 的 公司 雇员 中 ,其 离职 原因 是 因为 对 工资 不 满意 、 对 分 配 的 工作 不 满 
意 , 或 者 二 者 和 丝 有 的 概率 是 多 少 呢 ? 
令 事件 





S = | 公司 雇员 离职 是 因为 对 工资 不 满意 | 
= [公司 雇员 离职 是 因为 对 分 配 的 工作 不 满意 | 
已 知 P(5) =0 30，P(W) =0.20，P(SMW) =0, 12。 利 用 加 法 公式 (4-6) ， 可 得 
P(S WW) = P(S) ¥ PCW) =P{S MW) =030+020-012 =0.38 
得 出 雇员 因为 工资 或 工作 原因 离职 的 概率 为 0. 38。 
在 结束 加 法 公式 的 讨论 之 前 ， 我 们 再 来 考虑 一 种 特殊 的 傅 况 opt ett ere) 





当 事 件 4 和 事件 B 中 一 个 发 生 而 男 一 个 一 定 不 会 发 生 时 ， 则 称 4 和 8 是 互 斥 的 。 因此, 4 和 8B 互 斥 的 必要 条 
件 是 它们 的 交 不 含有 任何 样本 点 。 文 氏 图 描述 了 两 个 事件 4 和 B 互 斥 的 情况 , 见 图 4-7。 此 时 ，P(AmB) =0， 故 
加 法 公式 可 以 写成 下 面 的 形式 : 





样本 空间 5S 


事件 4 事件 如 








图 4-7 互 斥 事件 
方法 应 用 
22. 假设 样本 空间 包含 有 5 个 等 可 能 发 生 的 试验 结果 :; ， 24， 克拉 克 森 大 学 对 毕业 生 进 行 了 一 项 调查 以 了 解 他 
E、 Ex bb, BR 和 bs 全 | 们 对 学 校 的 看 法 。 调 查 中 的 一 个 问题 是 询问 受 访 
A= {1E,E!} B= {EE| C= |EsE,E) 者 在 学 校 的 经 历 是 未 达到 预期 、 达 到 预期 还 是 超 
a 0 A ”出 预期 ? 调查 结果 表明 ， 有 4 名 的 人 没有 回答 ， 有 
b, 求 P(A4UB)。A 和 B 是 和 否 互 斥 ? | 26% 的 人 认为 未 达到 预期 ,65% 的 人 认为 达到 
6. FA OC POAY He PAY 预期 。 
d. 求 4UB' 和 P(AUB')。, a. 如 果 我 们 随机 地 选择 一 名 毕业 生 ， 则 他 认为 在 


e. 求 P(BUC)。 学 校 的 经 历 超出 预期 的 概率 为 多 少 ? 
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b， 如 果 我 们 随机 地 选择 一 名 毕业 生 ， 则 他 认为 在 a， 所 选 基金 是 国内 产权 基金 的 概率 是 多 大 ? 
学 校 的 经 历 达 到 或 超出 预期 的 概率 为 多 少 ? b， 所 选 基金 的 评级 是 4 星 或 5 星 的 概率 是 多 大 ? 
26. 晨星 投资 提供 了 互助 基金 的 一 些 信息 ， 内 容 包 括 : c. 所 选 基金 是 国内 产权 基金 并 且 评 级 是 4 星 或 5 
互助 基金 的 类 型 (国内 产权 、 国 际 产权 或 国定 收 星 的 概率 是 多 大 ? 
益 ) 和 基金 的 晨星 评级 。 评 级 从 1 星 (最 低级 别 ) d， 所 选 基金 是 国内 产权 基金 或 者 评级 是 4 是 或 5 
到 5 星 (最 高 级 别 )。 从 展 星 基金 500(2008) 中 选 星 的 概率 是 多 大 ? 
取 25 只 基金 组 成 一 个 样本 ， 得 到 以 下 结果 : 衣 28， 某 杂志 对 订阅 者 的 调查 表明 ， 在 过 去 12 个 月 中 ， 
es 有 .16 只 互助 基金 是 国内 产权 基金 45.8 色 的 人 由 于 工作 原因 租赁 汽车 ，54% 的 人 由 于 
有 13 只 互助 基金 的 评级 是 3 星 或 者 3 星 个 人 原因 租赁 汽车 ，30 和 的 人 由 于 工作 和 个 人 原因 
以 下 租赁 汽车 。 
e 国内 产权 基金 中 有 7 只 的 评级 是 4 星 a. 在 过 去 12 个 月 中 ， 某 订阅 者 因 工 作 或 个 人 原因 
e 国内 产权 基金 中 有 2 只 的 评级 是 5 星 租赁 汽车 的 概率 是 多 少 ? 
为 了 更 多 地 了 解 互 助 基金 及 其 投资 目标 ， 假 b. 在 过 去 12 个 月 中 ， 某 订阅 者 由 于 工作 或 个 人 原 
设 从 这 25 只 互助 基金 中 随机 选取 一 只 基金 。 试 问 : 因 未 租 作 汽车 的 概率 是 多 少 ? 
4.4 条 件 概率 


某 个 事件 发 生 的 可 能 性 经 常会 受到 另 一 个 相关 事件 发 生 与 否 的 影响 。 假 设 事 件 4 发生 的 概率 为 P(4) ， 如 果 
获得 了 新 的 信息 一 一 确 知 另 一 个 相关 事件 B 已 经 发 生 了 ， 我们 希望 利用 这 一 新 的 信息 来 重新 计算 事件 4 发 生 的 可 
能 性 。 此 时 ， 事 件 4 发 生 的 可 能 性 叫 作 条 件 概率 (conditional probability) ， 记 作 P(4 | B) 。 符 号 “ | ”用 来 表明 我 
们 是 在 事件 B 已 经 发 生 的 条 件 下 考虑 4 发 生 的 可 能 性 。 因 此 ， 符 号 P(4 | B) 读 作 “事件 有 发 生 的 条 件 下 事件 4 
发 生 的 概率 ”。 

下 面 ， 以 美国 东部 某 大 城市 警察 局 男性 和 女性 警官 的 升 职 表 4-4 ”过 去 清 年 中 芍 志 着 职 靖 情 滨 
情况 为 例 ， 说 明 条 件 概率 的 应 用 。 警 察 局 共有 1 200 名 警官 ， 
男性 960 人 ,女性 240 人 。 在 过 去 的 两 年 中 ， 有 324 名 警官 得 
到 了 升 职 。 其 中 男性 和 女性 升 职 情况 的 详细 数据 见 表 4-4。 

一 个 由 女性 警官 组 成 的 委员 会 在 浏览 了 升 职 记录 以 后 指 
出 ， 在 升 职 过 程 申 存在 性 别 歧 视 ， 其 依据 是 男性 警官 中 有 288 人 得 到 了 升 职 ， 而 升 职 的 女性 警官 仅 为 36 人 人。 警察 
局 官员 回应 称 ， 女 性 警官 升 职 人 数 较 少 并 非 因为 性 别 歧视 ， 而 是 因为 警官 中 女性 的 数量 原本 就 相对 较 少 。 现 在 我 
们 利用 条 件 概 率 ， 对 升 职 中 性 别 歧视 的 投诉 进行 分 析 。 


今 





M = | 某 警 官 为 男性 | 双 = { 某 警官 为 女性 | 
4= |{ 某 警官 得 到 升 职 | ”4 = | 某 警 官 未 得 到 升 职 | 
将 表 4-4 中 各 项 数据 除 以 警官 总 人 数 1 200， 便 得 出 以 下 有 用 的 概率 信息 。 
随机 选择 一 名 警官 ， 他 是 男性 并 且 得 到 了 升 职 的 概率 为 P(MMA) =28871200 =0. 24 
随机 选择 一 名 警官 ， 他 是 男性 但 未 得 到 升 职 的 概率 为 P(Mn4 ) =672/1 200 =0. 56 







随机 选择 一 名 警官 ， 她 是 女性 并 且 得 到 了 升 职 表 4.5 警官 升 职 的 联合 概率 分 布 表 
的 概率 为 P(W 站 4) =36/1 200 =0. 03 联合 概率 
随机 选择 一 名 警官 ， 她 是 女性 但 未 得 到 升 职 的 女性 (W) 


概率 为 P(WNMA) =204/1 200 =0. 17 升 职 (4) 

上 述 概 率 值 都 是 两 个 事件 交 的 概率 ， 我 们 称 之 未 升 职 《45) 
为 联合 概率 (joint probability) 。 表 4-5 汇总 了 警官 升 合计 
职 情况 的 概率 信息 ， 称 为 联合 概率 表 。 
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在 联合 概率 表 的 边缘 分 别 列 出 了 每 个 事件 各 自 的 概率 ， 即 P(M) =0.80, P(W) =0.20，P(4) =0.27 和 
P(A") =0.73。 因 为 这 些 概 率 位 于 联合 概率 表 的 边缘 ， 故 称 之 为 边际 概率 (marginal probability) 。 我 们 注意 到 ， 边 
际 概率 总 可 以 由 联合 概率 表 中 的 联合 概率 按 行 或 按 列 求 和 得 到 。 比 如 ， 得 到 升 职 的 边际 概率 为 P(4) =P(MNMA) + 
P(WMA) =0. 24 +0.03 =0.27。 由 边际 概率 可 知 ，80% 的 警官 为 男性 ，20% 的 警官 为 女性 ，27% 的 警官 得 到 了 升 
职 ，73% 的 警官 未 得 到 升 职 。 

现在 我 们 利用 条 件 概率 进行 分 析 ， 计 算 某 位 警官 是 男性 的 条 件 下 获得 升 职 的 概率 。 按 条 件 概率 的 表示 符号 ， 
即 我 们 想 要 计算 P(4 | 到) 。 为 此 ， 首 先 我 们 认识 这 一 符号 的 简单 含义 。P(4 | 天) 度量 的 是 在 事件 材 ( 菜 警官 为 
男性 ) 已 经 发 生 的 条 件 下 事件 4 〈 得 到 升 职 ) 发 生 的 概率 。 因 此 ， 我 们 需要 关注 的 只 是 960 名 男性 警官 的 升 职 情 
况 。 由 于 在 960 名 男性 警官 中 ， 有 288 名 得 到 升 职 ， 则 在 某 警官 为 男性 的 条 件 下 得 到 升 职 的 概率 为 288/960 = 
0.30。 也 就 是 说 ， 若 警官 为 男性 ， 则 他 在 过 去 两 年 之 中 获得 升 职 的 机 会 为 30% 。 

由 于 表 4-4 中 的 值 已 给 出 了 每 一 类 警官 的 人 数 ， 所 以 这 种 方法 应 用 起 来 十 分 简单 。 现 在 我 们 演示 怎样 直接 通 
过 事件 概率 ， 而 不 是 使 用 表 4-4 的 频数 数据 计算 条 件 概率 P(4 | M) 。 

已 知 P(4 |M) =288/960 =0,30， 将 分 子 分 母 同时 除 以 警官 总 人 数 1 200， 有 

288 288/1200 0.24 


由 此 可 见 ， 条 件 概率 P(4 | M) 可 以 通过 0.24/0. 80 来 计算 。 由 联合 概率 表 ( 见 表 4-5) 可 知 ， 事件 4 和 及 的 联 
合 概率 P(A4NM) =0.24， 事 件 “ 随 机 选择 某 警 官 为 男性 ”的 边际 概率 P(M) =0. 80。 因 此 ， 条 件 概率 P(4 | M) 可 
以 通过 求 联合 概率 P(ANM) 和 边际 概率 已 ( 歼 ) 的 比值 得 出 ， 即 ; 
P(A |M) a = 下 的 = 0. 30 
既然 条 件 概率 可 以 由 联合 概率 和 边际 概率 的 比值 计算 得 到 ， 则 对 于 任何 两 个 事件 4 和 8， 有 如 下 条 件 概率 的 






文 氏 图 可 以 帮助 我 们 对 条 件 概率 有 一 个 直观 的 理解 。 图 4-8 右边 的 圆 表示 事件 B， 其 中 与 事件 4 重 短 的 部 分 
表示 事件 (4mB)。 可 见 , 一 旦 事件 8 已 经 发 生 ， 则 能 够 事件 4 门 B 
观测 到 事件 4 发 生 的 唯一 区 域 是 事件 (4mB)。 于 是 ，P 
(ANB)/P(B) 给 出 了 在 事件 有 已 经 发 生 的 情况 下 事件 4 
发 生 的 条 件 概率 。 nt 
现在 回 到 有 关 女 警官 升 职 中 受到 歧视 的 问题 中 来 。 
表 4-5 中 第 一 行 的 边际 概率 显示 ， 某 警官 升 职 的 概率 是 
P(4) =0.27 (无 论 该 警官 是 男 是 女 ) 。 在 这 一 性 别 歧视 的 
案例 中 ， 两 个 条 件 概率 P(A | M) 和 P(A |W) 是 问题 的 关 
键 。 也 就 是 说 ， 若 警官 为 男性 ， 则 他 的 升 职 概率 为 多 少 ? 图 4-8 条 件 概率 P(41B) =P(4mB) /P(B) 
车 警官 为 女性 ， 则 她 的 升 职 概率 为 多 少 ? 如 果 这 两 个 概率 
值 相等 ， 那 么 有 关 性 别 歧视 的 投诉 就 是 毫 无 根据 的 ， 因 为 对 于 男女 警官 ， 有 着 均等 的 升 职 机 会 。 但 是 ， 如 果 这 两 
个 条 件 概 率 不 相等 ， 则 有 证 据 表明 男女 警官 在 升 职 问题 上 被 区 别 对 待 。 
已 知 P(4 | M) =0.30， 现 在 我 们 利用 表 4-5 中 的 概率 值 和 条 件 概率 基本 关系 式 (4-7) ;在 某 位 警官 为 女性 的 





第 4 章 概 率 101 


条 件 下 计算 其 升 职 的 概率 P(4 | 下)。 利 用 式 (4-7) ， 其 中 B=W， 我 们 得 到 


天 READOPWD SOTOmOS 
P(A |W) = 人 = 0 20 = (0. 1 
你 由 此 得 到 了 什么 结论 ? 男性 警官 升 职 概率 为 0.30， 是 女性 警官 升 职 概率 0. 15 的 两 倍 。 虽 然 条 件 概率 本 身 
并 不 能 证 明 存 在 歧视 ， 但 条 件 概率 的 数值 却 成 为 支持 女 警官 们 投诉 的 有 力 证 据 。 





在 上 述 例 予 中 ，P(4) =0;27，P(4 |M) =0. 30， 并 且 P(4 | W) =0.15。 我 们 看 到 ， 警 官 的 性 别 大 大 影响 了 获 
得 升 职 (事件 4) 的 概率 。 特 别 地 ， 由 于 P(4 | M) 关 P(4) ,我 们 可 以 说 事件 4 和民 是 相依 事件 ， 即 事件 4 〈( 逢 
职 ) 的 概率 受到 事件 M (警官 是 男性 ) 发 生 与 否 的 影响 。 类 似 地 ， 因 为 P(4 | W) 关 P(4) ， 我 们 可 以 说 事件 4 和 
W 是 相依 事件 。 如 果 事 件 4 的 概率 不 会 由 于 事件 M 的 存在 而 改变 ， 即 P(4 | M) = P(4) ， 则 称 事件 4 和 M 是 独立 
事件 (independent events) 。 由 此 ， 得 到 如 下 关于 两 个 事件 独立 的 定义 ; 


Wh 


J 


No 





4. 4.2 ”乘法 公 


加 法 法 则 用 来 计算 两 事件 并 的 概率 ， 而 乘法 公式 则 是 用 来 计算 两 事件 交 的 概率 。 乘 法 公式 是 以 条 件 概 率 的 定 
义 为 基础 的 。 利 用 式 (4-7) 和 式 (4-8) 求解 P(4mB) ， 便 可 得 到 乘法 公式 (multiplication law) 。 


ly jy 外 1 4 7 9 ph hn ln 有 T 六 Cpa pra yop 


E pap tra 
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下 面 ， 我 们 举例 说 明 如 何 应 用 乘法 公式 。 假 设 某 报纸 的 发 行 部 已 知 在 某 社区 有 84% 的 住户 订阅 了 该 报纸 的 日 
报 。 令 D 表示 事件 “ 某 住户 订阅 了 日 报 ”"， 则 P(D) =0.84。 此 外 ， 还 知道 某 个 已 经 订阅 日 报 的 住户 订阅 周 日 特刊 
(事件 5) 的 概率 为 0.75， 即 P(S1D) =0.75。 那 么 ， 某 住户 既 订 阅 日 报 又 订阅 周 日 特刊 的 概率 为 多 少 ? 利用 乘 

P(SmD) = P(D)P(S|D) = 0.84 x0.75 = 0.63 

可 见 ， 有 63% 的 住户 婚 订 阅 了 日 报 又 订阅 了 周 日 特刊 。 

在 结束 本 节 之 前 ， 我 们 再 来 看 一 下 当 事 件 是 相互 独立 这 一 特殊 情况 下 乘法 公式 的 形式 。 当 P(A4 | B) =P(4) 
或 者 P(B 14) =P(B) 时 ， 事件 4 和 呈 独 立 。 因 此 ， 对 两 事件 独立 的 特殊 情况 ， 利 用 式 (4-11) 和 式 (4-12) 得 
到 如 下 的 乘法 公式 。 


而 网 
0) 


/Wl 





为 了 计算 两 独立 事件 的 交 的 概率 ， 我 们 只 需 简单 地 将 它们 相应 的 概率 相 乘 。 因 此 ， 独 立 事件 的 乘法 公式 提供 
了 另外 一 种 判断 4 和 B 是 否 独 立 的 方法 ， 即 如 果 P(4MB) =P(B)P(4)， 则 4 和 B 是 独立 的 ; 如 果 P(ANMB) zz 
P(B)P(4), 则 4 和 8B 是 相依 的 。 
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下 面 是 独立 事件 的 乘法 公式 的 一 个 应 用 实例 。 假 设 根据 以 往 经 验 一 名 加 油 站 的 经 理 已 知 有 80% 的 顾客 加 油 时 

使 用 信用 卡 。 那 么 两 名 顾客 加 油 时 都 使 用 信用 卡 的 概率 为 多 少 ? 令 
A = | 第 一 名 顾客 使 用 信用 卡 | 召 = | 第 二 名 顾客 使 用 信用 卡 | 

我 们 感 兴趣 的 是 两 事件 的 交 ANMB。 在 并 无 其 他 信息 的 情况 下 ， 我们 有 理由 假设 事件 4 和 事件 召 是 独立 的 ， 

因此 ， 
PlaANB) = PLAREB) = 0-80x0.80 = 0.64 

总 的 来 说 ,我 们 研究 条 件 概 率 的 动机 在 于 事件 之 间 和 党 第 是 相互 关联 的 。 在 这 种 情形 下 ， 由 于 事件 是 相依 的 ， 
所 以 我 们 计算 条 件 概 率 时 必须 采用 式 (4-7) 和 式 (4-8); 如 果 两 个 事件 无 关 ， 它 们 是 独立 的 ， 则 一 个 事件 的 概 
率 就 不 会 受到 男 外 事件 发 生 与 否 的 影响 。 


注释 和 评论 


不 要 混 清 互 斥 事 件 和 独立 事件 ， 这 是 两 个 不 同 的 概念 。 两 个 概率 不 为 零 的 事件 不 可 能 既是 互 斥 事件 ， 又 
是 独立 事件 。 如 果 两 个 互 斥 的 事件 之 一 被 确 知 已 经 发 生 了 ， 那 么 另 一 事件 发 生 的 概率 降 为 零 ， 故 它们 是 相 
依 的 。 





方法 概率 ? 
去 30. 假设 对 于 事件 4 和 B, 有 P(A) =0.50, P(B) = c. 如 果 一 辆 村 是 由 美国 汽车 商 制 造 ， 则 这 是 一 辆 
0.60 和 P(ANMB) =0.40。 小 汽车 的 概率 为 多 少 ? 这 是 一 辆 轻型 卡车 的 概 
a. 求 P(415) 。 率 为 多 少 ? 
Ws d. 如 果 一 辆 车 不 是 由 美国 汽车 商 制造 ， 则 这 是 一 
l 辆 小 汽车 的 概率 为 多 少 ? 这 是 一 辆 轻型 卡车 的 
c. 4 和 中 是 否 独立 ? 为 什么 ? 概率 为 多 少 ? 
应 用 e， 如 果 一 辆 车 是 轻型 卡车 ， 则 它 是 由 美国 汽车 商 
32. 2009 年 1 月 ,美国 汽车 行业 销售 657 000 辆 汽车 制造 的 概率 为 多 少 ? 


(《 华 尔 街 日 报 》，2009 年 2 月 4 日 )。 由 于 经 济 状 
况 持续 衰退 ， 自 2008 年 1 月 以 来 汽车 销量 下 降 了 
37%。 通 用 、 福 特 和 克 菜 斯 勒 是 美国 三 家 最 大 的 汽 
车 制造 商 ， 它 们 的 销量 为 280 500 辆 ， 自 2008 年 1 
月 以 来 下 降 了 48% 。 下 表 是 对 销售 量 按照 汽车 制 
造 商 和 售 出 车 型 进行 的 汇总 (单位: 千 辆 )。 其 
中 ， 非 美国 汽车 制造 商 包 括 丰 田 、 本 田 和 日 产 等。 
轻型 卡车 包括 : 皮卡 、 微 型 货车 、SUV 和 混合 
车 型 。 


车 型 
小 汽车 轻型 卡车 
美国 87.4 193. 1 
制造 商 非 美国 228.5 148.0 


a. 根据 上 述 数 据 求 联合 概率 分 布 表 ， 并 根据 该 表 
回答 下 列 问 题 。 
b. 求 边际 概率 ,分别 计算 制造 商 和 售 出 车 型 的 


f 根据 以 上 概率 信息 ， 你 对 销量 得 出 什么 结论 ? 


. 据 美国 交通 运输 部 报告 ，11 月 份 西南 航空 航班 的 


准点 到 达 率 为 83.4% ji 美国 航空 航班 的 准点 到 达 

率 为 75.1%; 蓝 捷 航空 航班 的 准点 到 达 率 为 

70. 1% (《 今 日 美国 )，2007 年 1 月 4 日 )。 假 定 上 

述 航 班 的 准点 到 达 率 对 罗切斯特 国际 机 场 A 候 机 

大 楼 也 是 适用 的 。 并 且 ， 在 A 候 机 大 楼 抵 港 航班 

中 有 40% 是 西南 航空 公司 的 航班 ， 有 35% 是 美国 

航空 公司 的 航班 ， 有 25% 是 葛 捷 航空 公司 的 航班 。 

a 编制 联合 概率 分 布 表 ， 表 由 三 行 (三 家 航空 公 
司 ) 和 两 列 ( 准 点 情况 ) 组 成 。 

b. 刚刚 有 通告 称 ， 航 班 1424 将 在 A 候 机 大 楼 20 
通道 抵 港 。 则 航班 1424 最 可 能 属于 哪 家 航空 
公司 ? 

c. 航班 1424 准点 到 达 的 概率 有 多 大 ? 

d. 假定 通告 称 航 班 1424 延误 ， 则 航班 1424 最 可 
能 属于 哪 家 航空 公司 ? 最 不 可 能 属于 哪 家 航空 


36. 


38. 


公司 ? 


贯 马尔 ， 克 劳 福 德 是 美国 职业 篮球 联赛 中 波 特 兰 


开拓 者 队 最 好 的 罚球 得 分 手 ， 他 投球 命中 率 为 
93% (ESPN 网 站 ，2012 年 4 月 5 日)8 假设 在 随 
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标准 。 下 表 中 数据 给 出 的 是 纽约 市 学 校 系 统 3~8 
年 级 参加 考试 学 生 中 达标 和 未 达标 学 生 的 人 数 
(纽约 市 教育 局 网 站 ,2010 年 1 月 16 日 )。 


是 否 达 到 熟练 掌握 程度 
后 的 一 场 篮球 赛 中 ， 由 于 对 方 犯规 ， 员 马尔 * 克 劳 年 级 达到 未 达到 
福 德 获得 两 次 罚球 机 会 。 三 年 级 47401 23975 
a 他 两 次 罚球 都 命中 的 概率 是 多 少 ? 四 年 级 35020 34740 
b. 他 至 少 有 一 次 罚球 命中 的 概率 是 多 少 ? 五 年 级 36062 33540 
c. 他 两 次 罚球 都 没有 命中 的 概率 是 多 少 ? Rs pa 
d 在 复 球 比赛 的 最 后 时 刻 ， 球 队 经 常 采取 i 故意 犯 Sb pe ei 


规 的 战术 以 拖延 比赛 。 通常 的 战术 是 故意 对 对 
方 罚球 技术 最 差 的 球员 犯规 。 假 设 波 特 兰 开 丘 
者 队 中 锋 的 罚球 命中 率 为 $58% ， 若 中 锋 获 得 两 
次 罚球 机 会 ， 请 分 别 计算 中 锋 出 现 (a)，【(b) 
和 (ce) 情形 的 概率 ， 并 说 明 为 什么 说 对 波 特 兰 
开拓 者 队 的 中 锋 犯 规 是 比 对 项 马尔 .上 克 劳 福 德 
犯规 更 好 的 战术 。 

纽约 州 要 求 3~8 年 级 学 生 参 加 一 项 全 州 的 数学 考 

试 。 必 须 证 明 学 生 已 达到 与 鞭 所 在 年 级 相对 应 的 

数学 理解 能 力 后 ， 方 能 被 认为 达到 了 州 里 的 熟练 


4.5 贝 叶 斯 定理 


在 条 件 概率 的 讨论 中 ， 我们 指出 在 获得 新 的 信息 之 后 对 概率 进行 修正 是 重要 的 概率 分 析 手 段 。 通 常 ， 在 开始 
分 析 时 ， 总 是 对 所 关心 的 特定 事件 估计 一 个 初始 或 先 验 概率 ( prior probability ) 。 然 后 ， 当 我 们 从 样本 、 专 项 报告 
或 产品 检验 中 获取 了 有 关 该 事件 新 的 信息 时 ， 就 能 根据 这 些 新 增 信 息 计 算 修 正 概率 对 先 验 概率 值 进行 更 新 ， 得 到 
后 验 概率 (posterior probability) 。 贝 叶 斯 定理 〈Bayes's theorem) 提供 了 进行 这 种 概率 计算 的 一 种 方法 。 图 4-9 列 
示 了 概率 修正 过 程 中 的 步骤 。 


a. 根据 上 述 数 据 ， 建 立 联 合 概 率 分 布 表 。 

b. 求 边际 概率 ， 由 此 得 到 学 生 是 否 达 到 熟练 掌握 
程度 的 概率 分 别 是 多 少 ? 

c 若 随 机 选取 一 名 三 年 级 学 生 ， 则 他 (她 ) 达到 
熟练 掌握 程度 的 概 闪 是 多 少 ? 

d. 车 随机 选取 的 一 名 学 生 在 考试 中 已 经 达到 熟练 掌握 
的 程度 ， 则 他 (她 ) 是 一 名 三 年 级 学 生 的 概率 有 
多 大 ? 他 (她 ) 是 一 名 四 年 级 学 生 的 概率 有 多 大 ? 






图 4-9 利用 贝 叶 斯 定理 进行 概率 修正 
下 面 给 出 贝 叶 斯 定理 的 一 个 应 用 实例 。 假 设 某 制 造 企业 从 两 个 不 同 的 供应 商 处 购买 零件 。 令 4, 表 示 事 件 “ 零 


件 来 自 供应 商 1”，4, 表 示 “ 零 件 来 自 供应 商 2”。 


表 4-6 ”两 个 供应 商 的 零件 质量 的 历史 信息 


现在 ,该 企业 有 65% 的 零件 购 自 供应 商 1， 其 余 35% 的 零 合格 品 率 ”不 合格 品 率 
件 购 自 供应 商 2。 那 么 ， 如 果 随机 选取 一 个 零件 ， 则 我 们 可 设 定 供应 商 1 98 2 
供应 商 2 95 5 


先 验 概率 P(4,) =0.65 和 P(A,) =0.35。 
零件 的 质量 随 货源 的 不 同 而 不 同 ， 两 个 供应 商 零件 质量 的 
历史 数据 见 表 4-6 中 。 如 有 果 令 G 表示 事件 “零件 合格 ”，B 表示 
事件 “零件 不 合格 ”， 则 表 4-6 中 的 信息 给 出 如 下 条 件 概 率 的 值 : 


P(G|A,) = 0.98 P(B|A4,) = 0.02 
P(G|A,) = 0.95 P(B|A,) = 0.05 
工厂 首先 从 两 个 供应 商 之 一 购 得 零件 ， 然 后 再 检验 某 个 零件 质量 是 否 合格 。 图 4-10 的 树 形 图 将 这 一 过 程 描 述 为 一 
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个 两 步 又 试验 一 一 可 见 最 终 有 4 钟 可 能 的 试验 结果 ， 其 中 2 个 结果 对 应 与 质量 合格 ，2 个 结果 对 应 于 零件 质量 不 合格 。 
步 瞩 | |! 步骤 | 试验 结果 
供应 商 I 条 件 ! 
' (41,6) 
| 
' ; (4,, B) 
' Ca 
' (4 B) 


图 4-10 ”两 个 供应 商 例子 中 的 树 形 图 
注 ; 步骤 1 表明 零件 来 自 两 个 供应 商 之 一 。 
步 也 2 表明 零件 质量 是 否 合格 。 


每 个 试验 结果 都 是 两 个 事件 的 交 ， 于 是 可 以 利用 乘法 公式 来 计算 概率 ， 比 如 : 
P(41,G) = P(4nC) = P(A P(G |4,) 
计算 联合 概率 的 过 程 可 借助 概率 树 来 描述 ， 如 图 4-11 所 示 。 概 率 树 从 左 到 右 有 两 个 分 支 ， 步 又 1 的 每 一 分 枝 
的 概率 都 是 先 验 概率 ， 步 又 2 的 每 一 分 支 的 概率 都 是 条 件 概率 。 为 了 求 得 每 一 试验 结果 的 概率 ， 我 们 只 需 简 单 地 
把 通 向 试验 结果 的 各 分 支 上 的 概率 相 乘 即 可 。 图 4-11 显示 了 每 一 分 枝 上 的 概率 以 及 联合 概率 值 。 


步骤 1 
供应 商 


步骤 2 结果 的 概率 
条 件 | 


| 
I 
I 






P(A,NG)=P(4;) P{G |4,)=0.3325 


P(A,NB)=P (A P(B|As)=0.017 5 


图 4-11 两 个 供应 商 例子 的 概率 树 


现在 假定 购 自 两 个 供应 商 的 零件 都 被 用 于 加 工程 序 中 ， 一 台 机 器 因为 遇 到 一 个 不 合格 零件 而 突然 停机 。 那 么 
在 已 知 零件 不 合格 的 信息 后 ， 这 个 零件 来 自 供应 商 1 的 概率 为 多 少 ? 这 个 零件 购 自 供应 商 2 的 概率 为 多 少 ? 根据 
概率 树 上 的 信息 ( 见 图 4-11) ， 贝 叶 斯 定理 就 可 用 于 解答 这 样 的 问题 。 

令 表示 “零件 不 合格 ”， 我 们 现在 想 要 求 后 验 概率 P(4, | B) 和 P(4, | B) 。 根 据 条 件 概率 公式 ， 有 


P(A 1B) = fre (4-14) 
从 概率 树 中 可 见 
P(A, NV BA) = P(A YPCB|A,) (4-15) 


由 于 事件 B 只 在 两 种 情况 下 才 发 生 (4,nmB8 和 4:mnB)， 因 此 有 
P(B) = P(A, NB) + P(A; NB) = P(A,)P(B|A,) + P(A;)P(B |A,) (4-16) 
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将 式 (4-15) 和 式 (4-16) 代入 式 (4-14) 中 ， 即 可 求 得 P(4; | 83) 的 值 。 在 两 个 事件 的 情形 下 ， 得 到 如 下 
贝 叶 斯 定理 ; 





利用 式 (4-17) 和 本 例 中 的 概率 值 ， 有 


ge Bd P(AI)P(B|A4.,) 
te P(A)P(B|A,) + P(A4,)P(B |A4,) 
_ 0. 65 x 0. 02 p 0.0130 - 0.0130 _ 0. 4262 
0.65 x0.02 +0.35 x0.05 0.0130+0.0175 0.0305 ~ 
此 外 ， 利 用 式 (4-18) 可 得 P(4 站 BB) : 
i 0. 35 x 0., 05 0.0175 = .0175 _ (0s738 


0.65 x 0.02 +0.35 x0.05 0.0130 +0.0175 ~ -0.0305 
在 这 个 应 用 中 ， 开 始 时 随机 选取 的 零件 有 0. 65 的 概率 来 自 供应 商 1。 但是， 在 给 定 了 零件 不 合格 的 信息 以 
， 则 这 个 零件 来 自 供应 商 1 的 概率 降低 到 0. 4262。 事实 上 ， 如 果 一 个 零件 质量 不 合格 ， 那么 它 就 有 超过 一 半 的 
ee eh 的 ， 即 P(4, |B) =0.573 8。 
贝 叶 斯 定理 通常 应 用 于 如 下 情况 ， 即 我 们 希望 计算 后 验 概率 的 那些 事件 是 互 斥 的 ， 且 它 们 的 郑 拍 局 工 幕 个 
本 空间 >。 对 n 个 互 斥 事件 4, ，4,，…，4,， 它 们 的 并 是 整个 样本 空间 ， 可 以 利用 下 面 的 贝 叶 斯 定理 计算 
验 概率 P(4, | B8)。 








只 要 知道 了 先 验 概率 P(4,)，P(4,) ，…，P(A,) 以 及 条 件 概率 P(B|4,)，P(B|4,)，…，P(B14,)， 就 
可 以 利用 式 (4-19) 来 计算 事件 4)， a 二 A, 的 后 验 概率 。 


4. 5. 1 表格 法 

表格 法 有 助 于 完成 贝 叶 斯 定理 中 的 计算 。 零 件 供应 商 问题 的 表格 法 ， 如 表 4-7 所 示 。 其 中 计算 按 以 下 几 个 步 
又 完成 。 

第 一 步 : 准备 以 下 3 列 数据 ; 

第 1 列 一 一 需要 计算 后 验 概 率 的 互 斥 事件 4,。 

第 2 列 一 一 事件 的 先 验 概率 P(4, ) 。 

第 3 列 一 一 新 信息 B 关 于 每 个 事件 4, 的 条 件 概 率 P(B |4.,)。 

第 二 步 : 在 第 4 列 中 用 乘法 公式 计算 每 一 事件 4, 和 新 信息 B 的 联合 概率 P(4;,mB) 。 联 合 概率 由 第 2 列 的 先 验 
概率 乘 以 第 3 列 的 条 件 概率 得 到 ， 即 P(4,mB) = P(4,)P(B Ey 

”第 三 步 : 把 第 4 列 中 所 有 的 联合 概率 加 总 ， 其 和 即 为 新 信息 五 的 概率 P(B) 。 在 表 4-7 中 我 们 看 到 ， 某 零件 不 





-总 至 今 我 们 仍 在 使 用 的 贝 时 斯 定理 ， 是 基督 教 长 老 会 牧师 贝 叶 斯 〔 Reverend Thomas Bayes，1702 ~ 1761 年 ) 的 原创 性 的 工作 。 
加 ”如果 事 件 的 并 构成 了 整个 样本 室 间 ， 则 称 事件 为 完全 穷尽 的 。 
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合格 且 来 自 供应 商 1 的 概率 为 0.013 0， 某 零件 不 合格 上 且 来 自 供 应 商 2 的 概率 为 0.017 5。 由 于 不 合格 零件 只 能 以 
这 两 种 方式 获得 ， 其 和 0. 013 0 +0.017 5 表明 在 这 两 个 供应 商 运 来 的 零件 中 出 现 不 合格 零件 的 概率 为 0.030 5。 
第 四 步 : 在 第 5 列 ， 利 用 条 件 概 率 的 基本 关系 计算 后 验 概 率 。 
P(A. NB) 
P(B) 
注意 联合 概率 P(4;nB) 在 第 4 列 中 ， 而 概率 P(B8) 是 第 4 列 的 列 和 。 


表 4-7 在 两 个 供应 商 问题 中 计算 贝 叶 斯 定理 的 表格 法 


P(4;|B) = 


(1) (2) (3) (4) (5) 
事件 先 验 概率 条 件 概 率 联合 概率 后 验 概率 
A, P(A,) P(B |A,) P(ANMB) P(A |B) 
4 0. 65 0. 02 0.0130 0.0130/0.0305 = 0. 426 2 
4 0. 35 0. 05 0.0175 0. 017 5/0.0305 =0. 573 8 
1.00 P(B) =0. 0305 1, 000 0 
注释 和 评论 


1. 贝 叶 斯 定理 广泛 应 用 于 决策 分 析 中 。 先 验 概率 经 常 是 由 决策 者 主观 估计 的 。 在 取得 样本 信息 后 ， 计 算 后 验 
概率 以 供 决策 者 选择 最 佳 策 略 。 
2. 任何 事件 和 它 的 补 都 是 互 斥 的 ， 它 们 的 并 是 整个 样本 空间 。 因 此 ， 在 计算 某 事 件 和 它 的 补 的 后 验 概率 时 ， 
常常 采用 贝 叶 斯 定理 。 


方法 
40. 事件 机 、42 和 如 的 先 验 概率 分 别 为 P(4, ) =0. 20， 


P(4,) =0.50，P(4,) =0.30， 给 定 4 、4; 或 点 时 

事件 妃 的 条 件 概率 为 P( 百 | 4 ) =0.50，P(B 14 ) = 

0.40 和 P(B|A4,) =0.30。 

ia 计算 P(BNm4,)、P(BNA4,) 和 P(Bm4,)。 

b. 利用 贝 叶 斯 定理 式 (4 19) 计算 后 验 概率 P(4, | B)。 

c. 采用 表格 法 根据 贝 叶 斯 定理 计算 P(A, | B)， 
P(4, |18) 和 P(A, |B8). 


应 用 
六 42. 某 地 方 银行 对 其 信用 卡 制度 进行 审核 并 考虑 收回 


部 分 信用 卡 。 过 去 ， 大 约 有 5% 的 信用 卡 持 有 者 不 
履行 债务 并 造成 银行 无 法 收回 的 坏账 。 因 此 ， 管 理 
层 认为 某 特 定 的 信用 卡 持 有 者 不 履行 债务 的 先 验 
概率 为 0:05。 该 银行 还 发 现 ， 最 终 履 行 债务 的 信 
用 卡 持 有 者 以 0. 20 的 概率 会 拖欠 到 一 个 月 后 支付 。 
当然 ， 对 于 不 履行 债务 的 信用 卡 持 有 者 ， 拖 欠 一 个 
月 仍 未 支付 的 概率 为 1。 

a 如 果 某 个 信用 卡 持 有 者 已 经 欠 款 一 个 月 以 上 ， 

计算 他 将 不 履行 债务 的 后 验 概 率 。 
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b. 如 果 某 个 信用 卡 持 有 者 不 履行 债务 的 概率 超过 
0. 20， 银 行 就 将 收回 他 的 人 信用卡。 如 果菜 信用 
卡 持 有 者 已 经 欠 款 一 个 月 ， 则 银行 是 否 会 收回 
他 的 信用 卡 ? 为 什么 ? 


. 据 Open Doors 2011 年 报道 ， 在 2009 ~ 2010 学 年 美 


国 全 日 制 毕 业 生 中 有 9.5% 的 人 起 海 外 求学 ( 《 国 
际 教育 研究 》，2011 年 入 月 14 日)。 假 设 毕 业 记 
录 显 示 ，2009 ~ 2010 学 年 起 海外 求学 的 学 生 中 有 
60% 是 女性 ， 没 有 赴 海 外 求学 的 学 生 中 仅 有 499%% 
是 女性 。 
a. 令 4,= | 学 生 在 2009 ~2010 学 年 赴 海 外 求学 | 
4; = | 学 生 在 2009 ~2010 学 年 没有 赴 海 外 求学 | 
下 = | 学生 为 女性 | 
利用 给 出 的 信息 ; 求 P(4,),P(4,), P(W|4,) 
和 P( 下 |4;) 的 值 。 
b. 2009 ~ 2010 学 年 ,一 名 女生 起 海外 求学 的 概率 
是 多 少 ? 
c，2009 ~2010 学 年 ,一 名 男生 起 海外 求学 的 概率 
是 多 少 ? 
d. 利用 前 面 的 结果 ， 求 2009 ~ 2010 学 年 进行 全 日 
制 学 习 的 男生 和 女生 的 百分比 分 别 是 多 少 ? 


小 风 





如 何 利用 概率 为 决策 提供 有 用 的 信息 。 我 们 描述 了 概 
率 如 何 度量 事件 发 生 可 能 性 的 大 小 。 此 外 ,我 们 看 到 
在 计算 事件 的 概率 时 ， 既 可 以 将 构成 事件 的 试验 结果 


关键 术语 ， 


probability 概率 衡量 芝 不 事件 发 第 可 能 栓 的 数值 度量 。 

experiment 试验 一 个 能 够 产生 明确 结果 的 过 程 。 

sample space 样本 空间 由 所 有 试验 结果 组 成 的 
集合 。 

sample point 样本 点 ”样本 空间 的 元 素 ， 
代表 一 种 试验 结果 。 

multiple-step experiment 多 步骤 试验 可 以 分 为 循序 
的 多 个 步骤 的 试验 。 如 果 一 个 多 步骤 试验 由 上 个 步 
又 组 成 ， 并 且 在 第 1 个 步骤 中 有 nn 种 试验 结果 ， 在 
第 2 个 步骤 中 有 ns 种 试验 结果 ，……: ， 依 次 类 推 ， 
那么 试验 结果 的 总 数 为 n, xn, x 

tree diagram ” 树 形 图 ”一 种 有 助 于 直观 描述 多 步骤 试 

” 验 的 图 形 。 

combination 组 合 。 在 从 NN 个 个 体 中 选取 nn 个 的 试验 
中 ， 若 不 考虑 个 体 被 选取 的 顺序 ， 我 们 对 有 多 少 种 不 
同 的 选取 方法 感 兴 趣 。 选 取 的 nn 个 对 和 象 称 为 一 个 组 合 ， 


从 NN 个 个 体 中 选取 个 个 体 的 组 合 数 为 CY = (”) = 





一 个 样本 不 


Pa Xo 


NN 2 
nl(N-n)!’ 其 中 丸 =0， bE 党 » Ws 


permutation 排列 在 从 VW 个 个 体 中 选取 个 的 试验 
中 ， 若 认为 个 体 被 选取 的 顺序 非常 重要 ,我们 对 有 
多 少 种 不 同 的 选取 方法 感 兴趣 。n 个 对 象 的 选取 方式 称 
为 一 个 排列 ， 从 入 个 个 体 中 选取 个 个 体 的 排列 数 为 


mnl( 和 i 


basic requirements for assigning probabilities ”概率 分 
配 的 基本 条 件 ”概率 分 配 必须 满足 如 下 两 个 基本 条 件 : 
(1) 对 于 任意 一 个 试验 结果 五 ， 
(2) 对 所 有 友 个 试验 结果 ， 必 须 有 P(E,) +P(E,) +… 
+P(E, ) =1.0。 

classical method 古典 法 ”一 种 概率 分 配 的 方法 ， 适 
用 于 试验 结果 都 是 等 可 能 发 生 的 情形 。 


relative frequency method 相对 频数 法 一 种 概率 分 


本 章 ， 我 们 介绍 了 概率 的 基本 概念 ， 并 举例 说 明 【样本 点 ) 的 概率 全 部 相 驴 ， 


必须 有 0<P(E,)<1.. 





也 可 以 使 用 概率 的 加 法 公 
式 、 条 件 概率 、 乘 法 公式 等 公式 。 我 们 还 演示 了 在 获 
得 新 的 信息 的 情况 下 ， 如 何 利 用 贝 叶 斯 定理 来 得 到 修 
正 的 后 验 概率 。 





配 的 方法 ,适用 于 试验 可 以 大 量 重 复 并 且 能 取得 各 
种 试验 结果 发 生 频 率 的 情形 。 


subjective method 主观 法 
的 概率 分 配方 法 。 

event 事件 样本 点 组 成 的 集合 。 

complement of A 事件 A 的 补 由 所 有 不 包含 在 A 
中 的 样本 点 构成 的 事件 。 

venn diagram 文 氏 图 一 种 抽象 表明 样本 空间 和 事 
件 运 算 的 图 形 表 示 法 ,其 中 用 矩形 表示 样本 空间 ， 
用 圆 形 表示 事件 。 

union of Aand B 事件 A 和 事件 B 的 并 由 所 有 属于 
A 或 B 或 同时 属于 二 者 的 样本 点 构成 的 事件 ， 记 
作 4UB。 

intersection of A and B 事件 4A 和 事件 已 的 交 由 同 
时 属于 4 和 B 的 样本 点 构成 的 事件 ， 记 作 AMmB。 

addition law ”加 法 公式 ”加 法 公式 用 于 计算 两 个 事件 的 
并 的 概率 ， 有 P(A4UB) =P(4) +P(B8) -P(AmB)。 对 
于 互 斥 事 件 ， 由 于 P(AMB) =0， 此 时 加 法 公式 简化 为 
P(AUB) =P(A) +P(B), 

mutually exclusive events ” 互 斥 事件 没有 共同 样本 
点 的 事件 ， 即 A4mB 为 空 集 ， 从 而 P(4mB) =0。 

conditional probability 条 件 概 率 ”一 个 给 定 事件 已 经 
发 生 的 条 件 下 ， 另 一 个 事件 发 生 的 概率 。 给 定 事件 
B 下 有 4 的 条 件 概率 为 P(4|1B) =P(A4MB)/P(B)。 

joint probability 联合 概率 ”两 个 事件 都 发 生 的 概率 ， 
即 两 个 事件 交 的 的 概率 。 

marginal probability 边际 概率 ”在 联合 概率 表 的 边缘 
的 值 ， 表 示 每 个 事件 各 自发 生 的 概率 。 

independent events ”独立 事件 ” 若 两 个 事件 4 和 B 独 
立 , 则 P(A41B)=P(4) 或 P(B14) =P(B); 也 就 
是 说 ， 事 件 之 间 相 互 没 有 影响 。 

multiplication law ”乘法 公式 ”用 于 计算 两 事件 交 的 概 
率 公式 。 可 以 写成 P(A4MB)=P(4)P(B |4) 或 者 
P(A4NMB)=P(B)P(4 |838)。 对 于 独立 事件 ， 乘 法 公 


一 种 以 主观 判断 为 基础 
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式 简 化 为 P(4mB)=P(4)P(B)。 


prior probability ” 先 验 概率 ”事件 的 初始 估计 概率 。 








46. 


48. 


posterior probability 后 验 概率 ”根据 新 的 附加 信息 对 


重要 公式 由 
组 合计 数 法 则 
N N! 
ee 
排列 计数 法 则 
和 : 
pr sn sm 让 
利用 事件 的 补 计算 概率 
POAY EW BLA) (4-5) 


加 法 公式 
P(A UB) = P(A) +P(B) - P(A NM B) (4:6) 
条 件 概 率 


P(A|1B) = 


P(ANM B) 
Pp 


(8) (4-7) 


《华尔街 日 报 》/ 哈 里 斯 个 人 理财 民意 调查 中 ， 询 
问 2082 名 成 年 人 是 否 拥 有 自己 的 住房 (All Busi- 
ness 网 址 ，2008 年 1 月 23 日 )。 接 受 调查 的 受 访 者 
中 总 共有 1249 人 回答 “是 ”。 在 450 名 18 ~34 年 
龄 组 的 受 访 者 中 ， 有 117 人 回答 “是 ”。 
a. 调查 中 的 受 访 者 拥有 自己 的 住房 的 概率 为 多 少 ? 
b. 在 18 ~34 年 龄 组 的 受 访 者 中 ， 拥 有 自己 的 住房 
的 概率 为 多 少 ? 
c. 调查 中 的 受 访 者 没有 自己 的 住房 的 概率 为 多 少 ? 
d. 在 18~34 年 龄 组 的 受 访 者 中 ， 没 有 自己 的 住房 
的 概率 为 多 少 ? 
43% 的 美国 人 通过 大 众 媒 体 和 其 他 网 站 发 表 他 们 
对 电视 节目 的 评价 (《 茶 芬 顿 邮 报 》，2011 年 11 月 
23 日 )。 对 1400 名 受 访 者 进行 调查 ， 询 问 他 们 是 
否 通 这 大 众 媒 体 和 其 他 网 站 发 表 他 们 对 电视 节目 
的 评价 ， 调 查 结 果 如 下 。 


是 否 通过 大 众 媒体 和 其 他 网 站 发 表 
他 们 对 电视 节目 的 评价 
是 否 
性 女 395 291 
别 勇 323.。 355 


a 受 访 者 是 女性 的 概率 有 多 大 ? 
b. 假定 森 个 受 访 者 是 一 儿女 性， 求 她 通过 大 众 媒 





30. 


人 


事件 概率 的 修正 。 
bayes's theorem 贝 叶 斯 定理 
率 的 方法 。 


一 种 用 来 计算 后 验 概 





PpP(B|A) = 


P(A NB) 
P(A4) 


(4-8) 


乘法 公式 
P(A MB) = P(B8)P(4 | 8B) 
P(ANB) = P(A)P(B|A) 
独 苦 事件 的 乘法 公式 
P(ANMB) = P(B)P(A) 
贝 叶 斯 定理 


(4-11) 
(4-12) 


(4-13) 
P(A.)P(B |4.) 


P(A1)P(B |A,) + P(A,)P(B | 4,) 
+ +P(A.)P(B|A,) 


P(A 1B) = 


(4-19) 


» 
» pb 
f |, 3 
i 
4 


RE 


体 和 其 他 网 站 评价 电视 节目 的 条 件 概 率 。 

c. 令 事 件 下 = | 受 访 者 是 女性 | , 事件 4= | 通过 大 
众 媒体 和 其 他 网 站 发 表 对 电视 节目 的 评价 | 。 事 
件 下 和 事件 4 独立 吗 ? 

通过 电话 调查 了 解 观众 对 某 一 新 播 出 电视 节目 的 

反响 ， 获 得 如 下 数据 。 











很 差 
低 于 平均 水 平 8 
平均 水 平 


a 随机 选择 一 名 观众 ， 他 对 新 节目 的 评价 为 “ 平 
均 水 平 或 更 好 ”的 概率 为 多 少 ? 

b. 随机 选择 一 名 观众 ， 他 对 新 节目 的 评价 为 “ 低 
于 平均 水 平 或 更 差 ” 的 概率 为 多 少 ? 

对 新 注册 的 2018 名 MBA 学 生 进 行 一 项 调查 ， 得 

到 如 下 数据 。 


申请 的 学 校 是 否 多 于 1 所 
是 否 
23 岁 或 以 下 207 201 
24 ~26 岁 299 379 
年 龄 组 27 二 30 岁 185 268 
31 ~35 岁 66 193 
36 岁 或 以 上 S51 169 


54. 


56. 


a 随机 选择 一 名 MBA 学生， 观察 学 生 的 年 龄 
和 是 否 申请 二 所 以 上 学 校 。 请 编制 联合 概率 
分 布 表 。 
b、 随 机 选择 一 名 申请 人 ， 革 年龄 为 23 岁 或 23 岁 
以 下 的 概率 为 多 少 ? 
ec. 随机 选择 一 部 申 请 人 ， 其 年 龄 为 26 岁 或 26 岁 以 
上 的 概率 为 多 少 ? 
ad 随机 选择 一 名 申请 大， 其 申请 学 校 的 数目 多 于 1 
所 的 概率 为 多 少 ? 
搜索 引擎 和 其 他 一 些 网 站 搜集 小 人 信息 并 利用 这 
些 信息 修正 搜索 结果 或 者 发 放 定 向 广告 。2012 年 
2 月 ， 皮 尤 互 联网 与 美国 大 生活 项 目 〈Pew Inter- 
net 改 American Life) 进行 了 一 次 调查 ， 调查 中 的 
一 些 问 题 涉及 网 络 使 用 者 对 上 述 行为 的 看 法 ( 皮 
尤 研究 中 心 ，2012 年 3 月 9 日)。 其 中 要 求 受 访 
者 回答 的 一 个 问题 是 : “如 果 搜 索引 攀 持 续 跟 肖 
你 的 搜索 ， 并 根据 这 些 信息 为 你 未 来 的 搜索 提供 
不 性 化 服务 ， 你 对 此 币 有 感想 ?” 有 两 个 选项 供 
受 访 者 选择， 一 种 是 “和 不 欢 同 六 感觉 这 样 做 侵犯 
了 自己 的 个 人 隐私 ”,， 另 一 种 是 “赞同 ,虽然 个 
大和 信息 被 搜集 "。 按 年 齿 段 分 组 汇总 后 的 频率 教 
据 见 下 表 。 


年 龄 不 赞同 赞同 
18 ~29 0. 1485 0.0604 
30~49 0. 2273 0. 0907 
50 以 上 0. 4008 0. 0723 


a 调查 中 一 名 受 访 者 对 这 种 做 法 不 赞同 的 概率 有 
多 大 ? 

. 车 一 名 受 访 者 的 年 龄 在 18 ~29 岁 之 间 ， 则 该 受 
访 者 赞同 这 种 做 法 的 概率 有 多 大 ? 

@. 车 一 名 受 访 者 对 这 种 做 法 不 赞同 ， 则 该 受 访 者 
年 龄 在 50 岁 以 上 的 概率 为 多 少 3 

,， 爱 访 者 对 这 种 做 法 的 态度 是 否 与 受 访 者 的 年 龄 
独立 ?为 什么 ? 

e. 年 龄 在 18 ~29 岁 之 间 的 受 访 者 和 50 岁 以 上 的 受 
访 者 ， 他 们 对 这 种 做 法 的 态度 有 差异 中 ? 

Cooper Realty 公司 是 位 于 纽约 州 奥 尔 巴 尼 市 的 一 家 

小 型 房地产 开发 公司 ,主要 销售 民用 住宅 。 最 近 ， 

这 家 公司 对 在 特定 的 一 段 时 间 内 一 座 居 民 住 宅 被 

售 出 的 可 能 性 尤为 关注 。 通 过 对 历年 该 公司 已 售 
出 的 800 套 住 宅 的 分 析 ， 得 到 如 下 数据 。 


” 


[= 


58. 


销售 时 间 

30 天 31~90 90 天 合计 

以 下 天 以 上 
150 000 美元 以 下 50 40 10 100 
150000~19999 美 元 20 150 80 250 
200000~250000 美 元 20 280 100 400 
250.000 美元 以 上 10 30 10 50 
合计 100 500 200 800 


a- 夺 事 件 4= 半 住宅 售 出 时 间 超 过 90 天 | ， 估 计 事 
件 4 的 概率 。 

b. 令 带 件 B= 半 住宅 定价 低 于 150000 美元 | ， 估 计 
事件 B 的 概率 。 

.事件 4mB 的 概率 为 多 少 ? 

. 假设 刚刚 得 订 的 合同 中 某 住宅 的 定价 低 于 
150 000 美元 ， 则 Cooper Realty 公司 需要 超过 
90 天 的 时 间 才 能 将 其 售 出 的 概率 为 多 少 ? 

e, 事件 4 和 事件 B 独立 吗 ? 

据 二 项 调查 报告 ，18 岁 及 以 上 的 互联 网 使 用 者 中 

有 8 抱 的 人 有 自己 的 博客 。 称 18 ~29 岁 年 龄 组 为 

青年 组 ， 调 查 显示 : 开通 博客 的 人 中 54% 是 年 轻 

人 ， 没 有 开通 博客 的 人 中 24% 是 年 轻 人 【〈 皮 尤 互 

联网 与 美国 人 生活 项 目 ，2006 年 7 月 19 日 )。 

a. 根据 这 些 数据 ， 建 立 联合 慨 率 表 。 表 中 有 2 行 
(开通 博客 ， 未 开通 博客 ) 和 2 列 (年轻 人 ， 其 
他 成 年 人 )。 

. 一 名 互联 网 使 用 者 是 年 轻 人 的 概率 是 多 少 ? 

ce, 一 名 互联 网 使 用 者 是 开通 博客 的 年 轻 人 的 概率 

是 多 少 ? 
d 假定 随后 的 一 次 电话 调查 中 受 访 者 年 龄 24 岁 ， 
则 他 开通 博客 的 概率 是 多 少 ? 


人 


Ss 


[= 到 


.电邮 广告 中 ， 出 现 最 为 频繁 的 五 个 词 分 别 是 : ship- 


ping! , today!, here!, available! 和 fingertips! (《 电 
邮 广 告 中 出 现 最 为 频繁 的 单词 》; 安 包 格 。 林 但 
糖 ，2010 年 3 月 17 日 )。 许 多 电邮 广告 过 滤器 利 
用 贝 叶 斯 定理 区 分 电邮 广告 和 电邮 非 广告 。 假定 
对 某 个 邮箱 账户 ,每 10 封 邮件 中 就 有 1 封 是 电邮 
广告 ， 每 封 电邮 广告 中 上 述 五 个 最 常见 单词 出 现 
的 频率 如 下 : 


shipping! 0. 051 


today! 0. 045 
here! 0. 034 
available! 0. 014 
fingertips! 0.014 
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并 且 假 定 在 电邮 非 广 告 中 ， 这 五 个 单词 出 现 的 频率 为 : 电邮 广告 的 概率 为 多 少 ? 若 一 封 邮件 中 包括 单 
人 ee 词 “here1”， 则 这 是 一 封 电邮 广告 的 概率 为 多 
Bi O00 少 ? 这 两 个 单词 哪 一 个 更 能 说 明 邮 人 和 件 可 能 是 一 
here! 0, 0022 封 电邮 广告 ? 为 什么 ? 
available! 0.0041 c. 若 一 封 邮件 中 包括 单词 “available1”， 则 这 是 一 
fingertips! 0.0011 封 电邮 广告 的 概 率 为 多 少 ? 车 一 封 邮件 中 包括 


单词 “fingertips!1”， 则 这 是 一 封 电 邮 广 告 的 概率 
为 多 少 ? 这 两 个 单词 哪 一 个 更 能 说 明 邮 件 可 能 
是 一 封 电邮 广告 ? 为 什么 ? 

d 从 (b) 和 (6e) 中 结果 可 见 ， 当 电邮 六 告 滤 波 
器 利用 贝 叶 斯 定理 过 小 电邮 广告 时 ， 什 么 是 影 
响 过 滤 效 果 的 关键 因素 ? 


a- 若 一 封 邮 件 中 包括 单词 “shipping!”， 则 这 是 一 
封 电邮 广告 的 概率 为 多 少 ? 若 一 封 邮件 中 包括 
单词 “shipping!”， 则 这 不 是 一 封 电 邮 广 告 的 概 
率 为 多 少 ? 包括 单词 “shipping!” 的 邮件 应 该 
被 标记 为 电邮 广告 吗 ? 

b. 若 一 封 邮件 中 包括 单词 “today!1”， 则 这 是 一 封 






ci | 加 pp = mg Yam a 1 hy A ea a 人 las ee 
案例 。” Hamilton 县 时 法 电 们 ’ 二 


i do % 
-Se 


Hamilton 县 的 法 官 们 每 年 审判 成 千 上 万 的 案件 。 被 处 理 的 案件 中 绝 大 多 数 不 会 再 改动 其 判决 ,但 是 也 
有 一 些 上 诉 的 案件 ， 并 和 且 这 些 上 诉 的 案件 中 ， 有 一 些 判 决 确实 被 推翻 。The Cincinnati Enquirer 的 Kristen Del- 
Guzzi 对 Hamilton 县 法 官 在 3 年 中 处 理 的 案件 进行 了 调查 ， 表 4-8 中 给 出 了 由 中 级 诉讼 庭 、 民 事 庭 、 市 政 庭 
的 38 名 法 官 处 理 过 的 182 908 件 案 件 的 结果 。 其 中 有 两 名 法 宫 Dinkelacker 和 Hogan 在 三 年 之 中 从 未 在 同一 
法 庭 共 事 。 
报纸 进行 该 研究 的 目的 在 于 评估 法 官 们 的 业绩 。 上 诉 通常 主要 是 由 法 官 的 错误 引起 的 ， 而 该 研究 想 了 解 哪些 
法 官 工作 表现 更 好 ， 哪 些 法 官 犯 过 多 的 错误 。 请 你 帮助 分 析 数 据 ， 利 用 有 关 概 率 和 条 件 概率 的 知识 来 对 法 官 们 的 
业绩 进行 排名 。 你 还 要 分 析 在 不 同 法 庭 处 理 过 的 案件 被 上 诉 和 推翻 原 判 的 可 能 性 有 多 大 。 
表 4-8 Hamilton 县 法 庭 处 理 的 所 有 案件 以 及 上 诉 和 被 推翻 原 判 的 情况 
中 级 诉讼 庭 


上 
Fred Cartolano 3 037 137 12 
Thomas Crush 3 372 119 10 
Patrick Dinkelacker 1 258 44 8 
Timothy Hogan 1 954 60 7 
Robert Kraft 3 138 127 7 
William Mathews 2264 91 18 
William Morrissey 3 032 121 22 
Norbert Nadel 2 959 131 20 
Arthur Ney， 工 3 219 125 14 
Richard Niehaus 3 353 137 16 
Thomas Nurre 3 000 121 6 
Jonh O'Connor 2 969 129 12 
Robert Ruehlman 3 205 145 18 
J. Howard sundermann 955 60 10 
Ann Marie Tracey 3 141 127 13 
Ralph Winkler 3 089 _ 88 = 
合计 43 945 1762 199 
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( 续 ) 
民事 庭 
站 处 理 案 件 总 数 上 诉 案件 数目 Ns 

Penelope Cunningham 2 729 7 ] 

Patrick Dinkelacker 6001 19 4 

Deborah Gaines 8 799 48 9 

Ronald Panioto 12 970 Ke: 3 

合计 30 499 106 17 

市 政 庭 
人 
Mike Allen 6 149 43 4 
Nadine Allen 7 812 34 6 
Timothy Black 7954 41 6 
David Davis 7736 43 5 
Leslie Jsaiah Gaines 5 282 35 13 
Karla Grady 5 253 6 0 
Deidra Hair 21532 5 0 
Dennis Helmick 7 900 29 5 
Timothy Hogan 2 308 13 2 
James Patrick Kenney 2 798 6 l 
Joseph Luebbers 4 .698 25 8 
William Mallory 8 277 38 9 
Melba Marsh 8 219 34 7 
Beth Mattingly 2971 13 1 
Albert Mestemaker 4975 28 9 
Mark Painter 2239 7 3 
Jack Rosen 7 790 41 13 
Mark Schweikert 5 403 33 6 
David Stockdale $371 2 4 
John A. West _ 2797 _4 ad 
人 108 464 500 104 
管理 报告 


准备 一 份 报告 对 法 官 们 的 业绩 进行 排名 。 报 告 中 要 包含 在 三 个 法 庭 中 上 诉 和 推翻 原 判 的 可 能 性 分 析 。 报 告 至 
少 应 包括 以 下 内 容 : 

1. 在 三 个 不 同 法 庭 中 ， 案 件 被 上 诉 并 推翻 原 判 的 概率 。 

2. 每 名 法 官 所 处 理 的 案件 被 上 诉 的 概率 。 

3. 每 名 法 官 所 处 理 的 案件 被 推翻 原 判 的 概率 。 

4. 对 每 名 法 官 ， 当 其 处 理 的 案件 已 被 上 诉 时 ， 最 终 推翻 原 判 的 概率 。 

5. 对 每 个 法 庭 的 法 官 进 行 排名 。 阅 述 你 用 于 作为 评定 依据 的 标准 ， 并 说 明理 由 。 
















































实践 中 的 统计 
1 随机 变量 

离散 型 概率 分 布 

数学 期 望 与 方差 

二 元 分 布 、 协 方差 和 金融 资产 组 合 
二 项 概率 分 布 

泊 松 概率 分 布 

超 几 何 概率 分 布 


花旗 银行 


Wl 
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实践 中 的 统计 
花旗 银行 ~ 
纽约 州 ， 长 高 县 


花旗 银行 是 花旗 集团 的 一 个 分 支 机 构 ， 它 提供 全 
方位 的 金融 服务 ， 包括 支 票 和 储蓄 账户 、 贷 款 和 抵押 、 
保险 以 及 投资 服务 。 花 旗 银 行 通过 其 独一无二 Citi- 
banking 的 系统 提供 这 些 服务 。 

花旗 银行 是 美国 第 一 家 引进 自动 提 款 机 ( ATM ) 


的 金融 机 构 。 花 旗 银 行 信用 卡 中 心 《CBC) 的 ATM 机 


使 得 客户 能 够 在 任何 一 个 地 方 只 需 用 动 一 动手 指 便 能 
瞬间 完成 他 们 的 银行 业务 。 每 天 24 小 时 ， 每 周 7 天 ， 
从 存款 到 投资 管理 超过 150 种 不 同 的 银行 服务 项 目 都 
可 以 轻松 完成 。 目 前 ， 客 户 80% 的 交易 是 通过 ATM 来 
完成 的 。 

花旗 银行 信用 卡 中 心 向 随机 到 达 的 客户 提供 服务 。 
这 是 一 个 排队 等 待 系统， 如 果 电 到 所 有 的 ATM 都 忙 的 
话 ， 那 么 新 来 的 客户 只 能 排队 等 候 。 定 期 研究 CBC 能 
力 可 以 分 析 客 户 的 等 待 时 间 ， 并 决定 是 否 需要 增加 新 
的 ATM 机 。 


花旗 银行 收集 的 数据 表明 ， 随 机 到 达 的 客户 人 数 
服从 泊 松 分 布 。 利 用 泊 松 分 布 ， 花 旗 银行 可 以 计算 任 
意 时 间 段 内 到 达 CBC 的 顾客 数 的 概率 ， 从 而 决定 所 需 
ATM 机 的 数目 。 比 如 ， 令 x=1 分 钟 内 到 达 的 顾客 数 。 
假定 到 达 某 台 CBC 的 顾客 数 的 平均 值 为 每 分 钟 2 人 ， 
下 表 给 出 了 1 分 钟 内 到 达 顾 客 数 的 概率 。 


1 分 钟 内 到 达 顾 客 数 的 概率 分 布 





本 章 主 要 内 容 是 离散 型 概率 分 布 ， 比 如 花旗 银行 
分 析 使 用 的 泊 松 分 布 。 除 泊 松 分 布 之 外 ,我们 还 要 介 
绍 二 项 分 布 和 超 几 何 分 布 ， 并 说 明 如 何 利用 这 些 分 布 
得 到 有 用 的 概率 信息 。 


本 章 通 过 介绍 随机 变量 和 概率 分 布 的 概念 ， 将 对 于 概率 的 研究 进一步 扩展 。 随 机 变量 和 概率 分 布 是 关于 总 体 
数据 的 模型 。 所 谓 随机 变量 的 值 表 示 的 是 数据 值 ， 概 率 分 布 给 出 的 是 取 数据 值 时 所 对 应 的 概率 或 者 一 种 用 于 计算 
数据 各 种 取 值 的 概率 的 准则 。 本 章 的 重点 是 研究 离散 型 数据 的 概率 分 布 ， 即 离散 型 概率 分 布 。 

我 们 将 介绍 离散 型 概率 分 布 的 两 类 表达 形式 。 第 一 种 是 表格 形式 ， 其 中 第 一 列 是 随机 变量 的 值 ， 第 二 列 是 随 
机 变量 取 这 些 值 时 相应 的 概率 。 在 第 4 章 介 绍 的 为 试验 结果 分 配 概率 的 方法 ， 可 用 于 为 分 布 分 配 概率 。 离 散 型 概 
率 分 布 的 第 二 类 表达 形式 是 数学 函数 ， 计 算 随 机 变量 取 每 种 值 的 概率 。 我 们 给 出 了 以 函数 形式 表达 的 在 实践 中 广 
泛 应 用 的 三 种 概率 分 布 一 一 二 项 分 布 、 泊 松 分 布 和 直 几 何 分 布 。 


5. 1 随机 变量 


在 第 4 章 我 们 定义 了 试验 的 概念 及 其 与 之 相 联 系 的 试验 结果 。 随 机 变量 提供 了 用 数值 描述 试验 结果 的 
pd 






据 取 值 可 分 为 离散 型 或 连续 型 。 


实际 上 ， 随 机 变量 将 每 一 个 可 能 出 现 的 试验 结果 赋予 一 个 数值 ， 随 机 变量 的 值 取 决 于 试验 结果 。 随 机 变量 根 





名 “作者 感谢 花旗 银行 的 Stacey Karter 女士 ， 她 为 实践 中 的 统计 提供 了 本 案例 。 


所 ”随机 变量 的 取 值 必 须 是 数值 。 
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5.1.1 离散 型 随机 变量 


可 以 取 有 限 多 个 值 或 无 限 可 数 多 个 值 (如 0,， 1，2，…) 的 随机 变量 称 为 离散 型 随机 变量 ( discrete random 
variable) 。 例 如 ， 一 名 会 计 参 加 注册 会 计 师 (CPA) 考试 ， 考 试 共有 4 门 课程 。 令 试验 中 随机 变量 x= 通 过 CPA 
考试 的 课程 数 ，x 的 取 值 可 能 是 0，1, 2，3 或 4， 是 有 限 个 ， 因 此 x 是 一 个 离散 型 随机 变量 。 

下 面 ， 给 出 离散 型 随机 变量 的 男 一 个 例子 一 一 考虑 汽车 到 达 茶 个 收费 站 的 试验 。 此 时 ， 感 兴趣 的 随机 变量 
x = 一 天 中 到 达 的 汽车 数 。x 可 能 取 整 数 序列 10，1 ，2,，…| 当中 任何 一 个 值 。 因 此 ， x 是 一 个 离散 型 随机 变量 ， 
有 无 限 多 种 取 值 。 

尽管 很 多 试验 的 结果 都 可 以 自然 而 然 地 用 数值 来 表示 ， 但 有 些 试验 的 结果 却 不 能 。 例 如 ， 在 一 项 调查 中 设计 
的 问题 是 “电视 观众 能 和 否 回忆 起 最 近 看 到 的 一 则 电视 广告 中 的 信息 ”， 试 验 包 括 两 种 可 能 的 试验 结果 : 观众 能 回 
忆 起 和 观众 不 能 回忆 起 信息 。 定 义 离散 型 随机 变量 将 试验 结果 数值 化 : 如果 观众 不 能 回忆 起 信息 ， 则 令 x =0; 如 
果 观 众 能 回忆 起 信息 ， 则 令 x =1。 随 机 变量 的 数据 值 其 实 是 任意 的 《我 们 也 可 以 取 为 5 或 10) ， 但 是 按照 随机 变 
量 的 定义 这 些 取 值 是 可 行 的 ， 即 : x 给 出 的 是 对 试验 每 个 结果 的 数值 描述 ， 从 而 x 是 随机 变量 。 

表 5-1 给 出 了 其 他 一 些 离散 型 随机 变量 的 例子 。 我 们 注意 到 : 在 每 个 例子 中 ， 离 散 型 随机 变量 取 有 限 多 个 或 
无 限 可 数 多 个 值 (如 0,，1,2,，…)。 在 本 章 中 ,我 们 将 详细 讨论 这 些 离散 型 随机 变量 。 


表 5-1 离散 型 随机 变量 的 例子 


试验 随机 变量 ( x) 随机 变量 的 可 能 值 
与 5 位 客户 洽谈 下 订单 的 客户 数 Ov "lr 2 .35 于 
检验 一 批 50 台 收 音 机 组 成 的 货物 损坏 的 收音 机 数 5 
一 家 餐馆 营业 一 天 顾客 数 0 15 wr 盖 
销售 一 辆 汽车 顾客 性 别 男性 为 0， 女 性 为 


5. 1.2 连续 型 随机 变量 

可 以 取 某 一 区 间或 多 个 区 间 内 任意 值 的 随机 变量 称 为 连续 型 随机 变量 (continuous random variable) 。 度 量 时 
间 、 重 量 、 距 离 、 温 度 时 ， 其 试验 结果 可 以 用 连续 型 随机 变量 来 描述 。 例 如 ， 监 控 打 进 一 家 大 型 保险 公司 投诉 办 
公 室 的 电话 的 情况 。 假 定 试验 中 感 兴趣 的 随机 变量 为 *= 相 邻 两 个 电话 的 间隔 时 间 (单位 : 分 钟 )。 随 机 变量 的 值 
可 以 是 区 间 x 宇 0 中 的 任意 值 。 事实 上 , x 可 能 取 无 穷 多 种 值 ， 比 如 : 1. 26 分 钟 、2. 751 分 钟 、4. 333 分 钟 等 。 再 
比如 ， 佐 治 亚 州 亚特兰大 以 北 有 一 条 90 英里 长 的 州 际 高 速 公 路 工 -75。 亚 特 兰 大 有 一 个 紧急 救护 机 构 ， 我 们 可 以 
定义 随机 变量 x= 在 1-75 公路 上 发 生 下 一 起 事故 的 位 置 。 这 时 ，x 是 一 个 连续 型 随机 变量 ， 可 以 取 区 间 0<x<90 上 
的 任意 值 。 表 5-2 还 列 出 了 其 他 一 些 连 续 型 随机 变量 的 例子 。 注 意 ， 每 一 个 例子 中 ， 随 机 变量 很 定 可 以 取 某 个 区 
间 中 的 任意 值 。 我 们 将 在 第 6 章 介绍 连续 型 随机 变量 及 其 概率 分 布 。 

表 5-2 连续 型 随机 变量 的 例子 


试验 随机 变量 ( x) 随机 变量 的 可 能 值 
银行 开业 两 客户 到 达 的 时 间 间 隔 (单位 : 分 钟 ) x>0 
填充 一 个 软饮料 饶 (最 大 容量 为 12.1 挫 司 ) 从 司 数 0<x<12.1 
新 建 一 座 图 书馆 六 个 月 后 工程 进度 0<x<100 
检验 一 种 新 的 化 学 方法 反应 发 生 的 温度 (最低 150 F ， 最 高 212 下 ) 150<x<212 


一 种 确定 随机 变量 是 离散 型 还 是 连续 型 的 方法 ， 是 把 随机 变量 的 值 看 作 一 条 线 艇 上 的 起 。 任 意 选择 随机 变量 
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的 两 个 值 ， 假 如 线段 上 这 两 点 之 间 的 所 有 点 都 可 能 是 随机 变量 的 取 值 ， 则 该 随机 变量 就 是 连续 型 的 。 





方法 6. 以 下 是 一 系列 试验 及 相关 的 随机 变量 。 在 每 一 个 试 


人 考虑 工人 组 装 产 品 的 试验 。 验 中 ， 确 定 随机 变量 的 取 值 ， 并 说 明 随 机 变量 是 离 
a. 定义 一 个 随机 变量 ， 用 以 表示 组 装 产品 所 需 的 的 散 型 随机 变量 还 是 连续 型 随机 变量 。 
时 间 (单位 ; 分 钟 ) 。 试验 随机 变量 ( x) 


b. 随机 变量 可 能 取 哪 些 值 ? 


a 参加 一 个 20 道 题 的 考试 回答 正确 的 问题 数 
c. 这 个 随机 变量 是 离散 型 还 是 连续 型 ? 


b, 观察 1 小 时 中 到 达 收 费 站 到 达 收 费 站 的 汽车 数 
应 用 的 汽车 
4. 1 月 美国 失业 率 下 降 到 为 8.3% (美国 劳工 部 网 站 ， Ti 
2012 年 2 月 10 日 )。 美 国人 口 普查 局 从 东北 部 地 区 9 市 二 0 竹本 和 光 交 人 出 现 错误 的 报告 数 
选取 九 个 州 。 假 定 我 感 兴趣 的 随机 变量 是 ， 东 北部 d 观察 一 名 雇员 的 工作 在 8 小 时 工作 日 中 非 生产 
地 区 九 个 州 中 1 月 的 失业 率 低 于 8.3% 的 州 的 数目 。 性 工作 的 小 时 数 
试问 ， 这 个 随机 变量 可 能 取 哪 些 值 ? 9 


5.2 离散 型 概率 分 布 


随机 变量 的 概率 分 布 (probability distribution) 是 描述 随机 变量 取 不 同 值 的 概率 。 对 于 离散 型 随机 变量 *， 概 
率 函 数 〈probability function) 给 出 随机 变量 取 每 种 值 的 概率 ， 记 做 f(x) 。 在 建立 离散 型 概率 分 布 时 ， 可 以 采用 第 
四 章 中 所 介绍 的 分 配 概率 的 方法 一 一 古典 法 、 主 观 法 和 相对 频率 法 。 本 节 中 ， 我 们 演示 如 何 使 用 这 些 方法 。 用 这 
些 方法 可 以 得 到 所 谓 的 离散 型 概率 分 布 表 ， 即 将 概率 分 布 用 表格 形式 给 出 ，。 

当 各 种 试验 结果 对 应 的 随机 变量 值 是 等 概率 时 ， 适 合 采用 古典 法 为 随机 变量 的 值 分 配 概率 。 比 如 ， 在 抛掷 一 
枚 色 子 的 试验 中 观测 正面 朝 上 一 面 的 点 数 。 可 能 出 现 的 点 数 为 1，2，3，4，5 或 6， 并 且 每 种 结果 发 生 的 可 能 性 
是 均等 的 。 因 此 ， 若 令 *= 抛掷 一 枚 色 子 正面 朝 上 的 点 数 ， 太 xz) =x 的 概率 ， 则 x 的 概率 分 布 见 表 5-3。 

采用 主观 法 为 试验 结果 分 配 概率 也 会 得 到 一 张 表 ， 其 中 有 随机 ，， 玫 558 外 晒 _ 析 色 子 骨 上 一 面 点 数 的 概 素 分 布 
变量 的 取 值 及 其 相应 概率 。 主 观 法 中 ， 每 个 人 根据 自己 的 最 优 判断 一 
分 配 概率 ， 建 立 概率 分 布 。 因 此 ， 与 根据 法 建立 概率 分 布 不 同 ， 主 
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1 
观 法 得 到 的 概率 分 布 可 能 因 人 而 异 ， 不 同 的 人 会 给 出 不 同 的 概率 2 1/6 
分 布 。 3 176 
当 数据 量 相当 大 的 时 候 ， 可 以 采用 相对 频率 法 为 随机 变量 的 什 1/6 
分 配 概率 。 这 时 ， 我 们 将 数据 看 作 总 体 ， 采用 相对 频率 法 为 试验 结 ; mm 


果 分 配 概率 。 采 用 相对 频率 法 建立 离散 型 概率 分 布 得 到 所 谓 的 经 验 
离散 分 布 (empirical diserete distribution) 。 如 今 很 容易 获取 大 量 的 数据 ( 比如: 扫描 数据 ， 信 用 卡 数 据 ) ， 这 使 得 
这 类 分 布 在 实际 中 广 为 应 用 。 下 面 ， 我 们 以 汽车 代理 商 的 销售 量 为 例 举 例 说 明 其 应 用 。 

采用 相对 频率 法 ， 我 们 建立 DiCarlo 公司 在 纽约 萨 拉 托 加 的 汽车 销售 量 的 概率 分 布 。 历 史 数据 显示 ， 在 过 去 
300 天 的 营业 时 间 中 ， 有 54 天 汽车 销售 量 为 0 辆 ，117 天 为 1 辆 ，72 天 为 2 辆 ，42 天 为 3 辆 ，12 天 为 4 辆 ,3 天 
为 5 辆 。 假 设 我 们 观测 DiCarlo 公司 一 天 的 经 营 情况 ， 试 验 中 定义 随机 变量 x = 汽车 的 日 销售 量 。 采 用 相对 频率 法 
为 随机 变量 % 的 值 分 配 概率 ， 建 立 x 的 概率 分 布 。 

在 概率 函数 的 表达 式 中 ，f(0) 表示 销售 0 辆 汽车 的 概率 , f(1) 表示 销售 1 辆 汽车 的 概率 ， 以 此 类 推 。 由 于 
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历史 数据 显示 ，300 天 中 有 54 天 汽车 销售 量 为 0， 于 是 将 相对 频率 547300 =0. 18 分 配给 及 0) ， 表 示 一 天 中 销售 0 
筑 泊 车 的 概率 为 0 18。 同 理 ， 由 于 历史 数据 显示 300 天 中 有 117 天 销售 1 辆 汽车 ， 于 是 将 相对 频率 117/300 =0. 39 
分 配给 A(1) ， 表 示 一 天 中 销售 1 辆 汽车 的 概率 为 0.39。 对 随机 变 表 5-4 ”DiCarlo 公司 汽车 日 销售 量 的 概率 分 布 

量 的 其 他 值 ， 六 绿洲 全 这 利于 计 人 得 到 2 JC3), J(4)， 训  ， ，，，，，，，，， 而 





XxX f(xX) 

f(5) 的 值 ， 见 表 5-4。 0 0. 18 

定义 一 个 随机 变量 及 其 概率 分 布 的 最 基本 的 有 利 条 件 在 于 ， I 0.39 
一 旦 掌握 概率 分 布 则 确定 决策 者 感 兴 趣 的 各 种 事件 的 概率 就 变 得 2 0.24 
相当 容易 了 。 例 如 ， 根 据 表 5-4 中 DiCaalo 汽车 公司 的 概率 分 布 可 3 0.14 
知 ， 一 天 当中 最 有 可 能 卖 出 的 汽车 数量 为 1， 其 概率 f(1) =0. 39。 : i 
另外 ， 汽 车 日 销售 量 大 于 或 等 于 3 的 概率 是 /3) +/(4) +f(5) = 人 
0. 14 +0.04 +0.01 =0. 19。 这 些 概 率 及 其 他 信息 有 助 于 决策 者 党 — 
握 DiCarlo 公司 的 汽车 销售 情况 。 

一 个 高 二 王 畏 机 庄 芋 的 村 率 画 区 必须 满足 如 下 两 个 条 件 , 





表 5-4 表明 ， 随 机 变量 * 的 概率 满足 式 (5-1) ， 即 : 对 于 jt 
任意 *, f(x) 大 于 或 等 于 零 。 另 外 ， 概 率 和 为 1， 故 满足 
式 《5-27 于 是 ， DiCarlo 公司 的 概率 函数 是 一 一 个 有 效 的 离散 040 
型 概率 函数 。 
“我 们 还 可 以 用 图 形 来 表示 DiCado 汽车 公司 的 概率 分 布 。 在 站 
图 5-1 中 ， 横 轴 坐 标 表示 DiCarlo 公司 随机 变量 * 的 值 ， 纵 轴 坐 一 o20 


标 取 这 些 值 相应 的 概率 。 
”除了 表 中 的 概率 分 布 ， 还 可 以 用 公式 给 出 随机 变量 “的 概 “1 
率 函 数 /(x)。 其 中 , f(x) 给 出 随机 变量 * 取 每 种 值 的 概率 。 ”00 
在 离散 型 概率 分 布 中 ,- 离散 型 均匀 概率 分 布 (diserete uniform ”销售 泊 夺 的 宏 最 
bability distribu 义 见 
probability tion) 是 最 简单 的 一 类 ， 其 概率 函数 的 定 图 5-1 DiCano 公司 汽车 日 销售 量 的 概率 分 布 图 


下 式 (5=3j5 





例如 ,考虑 抛 一 枚 色 子 的 试验 ; -定义 随机 变量 天 为 色 子 面向 上 的 点 数 。 对 于 这 个 试验 ， 随 机 变量 有 ”= =6 
个 可 能 值 ， 即 x=1, 2,，3, 4，5 和 6。 由 于 每 个 值 出 现 的 概率 是 相等 的 ， 因 此 离散 型 均匀 随机 变量 x 的 概率 函 
数 为 ; 


es J 二 
常 用 离散 型 随机 变量 的 概率 分 布 通常 是 以 公式 的 形式 给 出 ， 二 项 分 布 、 泊 松 分 布 和 超 几何 分 布 是 其 中 最 重要 
的 三 类 分 布 ， 本 章 随后 将 介绍 这 三 类 分 布 。 


日 ”这 些 条 件 与 第 4 章 中 对 试验 结果 分 配 概率 时 提出 的 两 条 基本 要 求 类 似 。 
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sa SM EE 
位 详 1 me 
- 1 
"全 


应 用 | 12. 康 卡 斯 特有 线 传播 和 时 代 华 纳 有 限 公司 是 两 家 最 








太 8， 以 下 数据 是 坦 帕 总 医院 20 天 中 手 来 宣 的 使 用 精 学 : “” ”大 的 有 线 电 视 供应 商 ， 他 们 分 别 有 2 150 万 用 户 和 
有 3 天 只 使 用 1 间 ， 有 5 天 使 用 2 间 ， 有 8 天 使 用 3 1 00500 记 ( 《可 的 王强 于 委 ， 007 年)。 假 愉 
间 ， 有 4 天 医院 的 4 间 手 术 室 都 被 使 用 。 时 代 华 纳 有 限 传 播 的 管理 人 员 主 观 估 计 明 年 纽约 
a 根据 相对 频数 法 ， 对 一 天 中 手术 室 的 使 用 情况 奸 首 新 四 大 区 的 入 证 你 布 ‰p 下 过 所 示 。 

立 经 验 离散 概率 分 布 。 x f(x) x f (x) 

b. 绘制 概率 分 布 图 。 100 000 0.10 400 000 0. 30 

c. 说明 这 个 概率 分 布 满足 离散 型 概率 分 布 的 条 件 。 200000 0.20 500000 0.10 
10. 从 信息 系统 (IS) 选取 高 级 经 理 和 中 级 经 理 组 成 on a Wu ca] 

一 个 样本 ， 下 表 是 他 们 工作 满意 度 得 分 的 百分数 a. 这 是 一 个 概率 分 布 吗 ? 请 说 明理 由 。 

满意 ) 到 5 (非常 满意 )。 多 少 ? 

a. 编制 高 级 经 理工 作 满 意 度 得 分 的 概率 分 布 。 c, 时 代 华 纳 有 线 新 用 户 少 于 200 000 户 的 概率 是 

b. 编制 中 级 经 理工 作 满意 度 得 分 的 概率 分 布 。 yy 

C. 一 各 商 级 经 理 的 工作 满意 度 为 4 或 5 的 概率 是 “14 下 表 是 MRA 公司 第 一 年 营业 时 预计 利润 % (单位 ; 


7 1 000 美元 ) 的 概率 分 布 ， 其 中 ， 仙 值 代表 亏损 。 
d. 中 级 经 理 对 工作 非常 满意 的 概率 是 多 少 ? 


e. 对 比 高 级 经 理 和 中 级 经 理 整体 工作 满意 度 。 





工作 满意 度 得 分 高 级 经 理 (%) ”中 级 经 理 (%) 
1 | 4 
2 9 10 
3 3 12 a. 所 200) 的 值 是 多 少 ? 你 怎样 解释 这 个 值 ? 
和 b，MRA 赢利 的 概率 是 多 少 ? 
5 4 c. MRA 至 少 赢 利 100000 美元 的 概率 是 多 少 ? 


5. 3 数学 期 望 与 方差 
5. 3. 1 ”数学 期 望 


随机 变量 的 数学 期 望 (expected value) 或 均值 是 对 随机 变量 中 心 位 置 的 一 种 度量 。 离 散 型 随机 变量 * 的 数学 
期 望 的 数学 表达 式 如 式 (5-4) 所 示 。 


mr 












vo 





SE, Y 让 寺 


通常 采用 记号 E(x) 或 表示 随机 


变量 的 数学 期 望 。 
式 (5-4) 表明 ， 计 算 离散 型 随机 变量 的 数学 期 望 时 ， 首 先 将 随机 变量 的 所 有 可 能 取 值 乘 以 相应 的 概率 
值 f(x) ， 然 后 再 将 结果 相 加 。 利 用 第 5. 2 节 中 DiCarlo 公司 汽车 销售 量 的 例子 ， 我 们 演示 如 何 计算 汽车 日 销售 量 


加 ”数学 期 望 是 随机 变量 取 值 的 加 权 平 均 ， 其 中 的 权 数 是 概率 。 
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的 数学 期 望 ， 见 表 5-5。 表 5-5 中 f(x) 列 的 总 和 等 于 1.5， 即 汽车 日 销售 量 的 数学 期 望 为 1.5 辆 。 2 虽然 一 天 当中 
可 能 上 售 出 0,， 1, 2，3, 4 或 5 辆 汽车 ， 但 是 在 一 段 时 间 里 ， 可 以 预期 DiCarlo 公司 平均 日 销售 1. 50 辆 汽车 。 假 设 
一 个 月 营业 30 天 ;我 们 根据 数学 期 望 1.5 辆 /上 日， 可 以 预计 汽车 的 月 平均 销售 量 为 30 x1.5 =45 辆 。 

表 5-5 计算 DiCarlo 公司 汽车 日 销售 量 的 数学 期 望 


» f(x) xf( x) 
0 0. 18 0 x0. 18 =0. 00 
] 0. 39 1 x0, 39 =0. 39 
2 0. 24 2 x0. 24 =0. 48 
3 OQ. 14 3 x0. 14=E=0. 42 
4 0. 04 4 x0.04 =0. 16 
5 0. 01 5 x0.01 =0. 05 
1. 50 

区 
E(x) = jp = Ex 下) 
5. 3.2 方差 


虽然 数学 期 望 给 出 了 随机 变量 中 心 位 置 的 度量 ， 我 们 常常 还 需要 度量 随机 变量 的 变异 性 或 分 散 程度 。 正 如 我 
们 在 第 3 章 中 描述 数据 的 变异 性 那样 ， 现 在 用 方差 (variance) 来 描述 随机 变量 取 值 的 变异 性 。 离 散 型 随机 变量 方 
差 的 数学 表达 式 如 下 。 







如 式 (5-5) 所 示 ， 方差 公式 的 关键 是 离 差 (x -上 ) 一 一 度量 随机 变量 的 某 一 特定 值 与 数学 期 望 或 均值 jy 的 
距离 。 在 计算 随机 变量 的 方差 时 ， 随 机 变量 所 有 值 的 离 差 平方 的 加 权 求 和 称 为 方差 .通常 用 记号 Var(x) 或 o 来 
表示 随机 变量 的 方差 。 

表 5-6 计算 DiCarlo 公司 汽车 日 销售 量 的 方差 





x X 一 此 (x = 及 ) f(x) (x—p) f(x) 
0 0 -1.50 = -1.50 2. 25 0. 18 2.25 x0. 18 =0. 4050 
1 1 -1.50 = -0.50 0. 25 0.39 0.25 x0.39 =0.0975 
2 2-1.50= 0.50 0. 25 0.24 0.25 x0.24 =0.0600 
3 3 -1.50 = 1.50 2. 25 0. 14 2.25 x0. 14 =0.3150 
4 4-1.50= 2.50 6. 25 0.04 6. 25 x0:04 =0.2500 
5 5 -1.50= 3.50 12. 25 0. 01 12.25 x0.01 =0. 1225 
1.2500 
pe 
0” = L(x-K)" f(x) 


在 表 5-6 中 ,根据 DiCarlo 公司 汽车 日 销售 量 概率 分 布 ， 总 结 了 计算 方差 的 过 程 。 可 见 ， 方差 为 1.25。 定 义 方 
差 的 算术 平方 根 为 标准 差 (standard deviation) ， 记 做 e。 汽 车 日 销售 量 的 标准 差 为 : 
o = vV1.25 = 1.118 
标准 差 的 单位 与 随机 变量 的 单位 相同 (o =1. 118 辆 ) ， 所 以 更 加 常用 于 描述 一 个 随机 变量 的 变异 性 。 方 差 o 
的 单位 是 随机 变量 的 单位 的 平方 ， 其 含义 较 难 解释 。 


日 ”随机 变量 的 数学 期 望 不 一 定 是 随机 变量 的 某 个 值 。 
所 “方差 是 随机 变量 离 差 平方 的 加 权 算 术 平 均 ， 其 中 的 权 数 是 概率 。 





方法 
六 16. 下 表 是 随机 变量 y 的 概率 分 布 ; 
y 人 f(y) 
2 0. 20 ~ 0. 40 
4 0. 30 8 0. 10 
a 计算 EE(y)。 b. 计算 Var(y) 和 ar。 
应 用 
家 18. 美国 住房 调查 报告 称 ， 中 心 城市 自 有 住房 和 租赁 


20. 


5.4 


住房 中 卧室 数目 的 数据 见 下 表 是 (美国 人 口 署 网 
站 ,2003 年 3 月 31 日 ): 


房屋 数目 (单位 ; 干 套 ) 


本 租赁 住房 自 有 住房 
0 547 23 
1 和 012 54] 
2 6 100 3'832 
3 2.644 8 690 
三 4 S37 3783 


a. 念 随机 变量 % 表 示 租 赁 住房 的 卧室 间 数 (x =4 
表示 有 4 间 及 4 间 以 上 卧室 ) 。 编 制 随机 变量 x 
的 概率 分 布 。 

b. 计算 租赁 住房 中 卧室 间 数 的 数学 期 望 和 方差 。 

c. 令 随 机 变量 yY 表 示 自 有 住房 的 卧室 间 数 (y=4 
表示 有 4 间 及 4 间 以 上 卧室 )。 编 制 随机 变量 7 
的 概率 分 布 。 

d. 计算 自 有 住房 中 卧室 间 数 的 数学 期 望 和 方差 。 

e. 比较 自 有 住房 和 租赁 住房 的 卧室 间 数 ， 你 有 什 
么 发 现 ? 

据 Newton 汽车 保险 公司 称 ， 碰 撞 事 故 保险 损害 赔 

付 的 概率 分 布 见 下 表 ; 





a& 根据 碰撞 事故 赔付 金额 的 数学 期 望 ， 确 定 公 司 


二 元 分 布 、 协 方差 和 金融 资产 组 合 


2 


24. 


第 5 章 离散 型 概率 分 布 
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0 
队 人 


止 损 的 碰撞 保险 费 金 额 。 
b. 对 车 辆 碰撞 险 ， 保 险 公司 每 年 收取 520 美元 的 保 
险 费 ， 求 保单 持 有 人 获取 保险 收益 的 数学 期 望 是 
多 少 〈 提 示 : 数学 期 望 是 指 从 保险 公司 取得 的 期 
望 赔付 金额 减 去 碰撞 险 的 成 本 )? 有 这 一 数学 期 
望 下 ， 为 什么 客户 会 购买 这 种 碰撞 事故 保险 ? 
Carolina Industries 公司 的 产品 月 需求 量 存 在 明显 差 
异 。 根 据 过 去 两 年 的 数据 ， 得 到 公司 月 需求 量 的 
概率 分 布 ， 见 下 表 。 





a. 如 果 公 司 根据 月 需求 量 的 数学 期 望 来 确定 每 月 的 
订货 量 ， 该 公司 这 种 产品 的 每 月 订货 量 是 多 少 ? 
b. 假设 每 单位 产品 的 销售 收入 为 70 美元， 订货 成 
本 为 50 美元。 如果 基 于 (a) 中 的 结果 订购 ， 
并 且 该 产品 的 实际 需求 量 为 300， 那 么 公司 一 个 

月 的 赢利 或 亏损 是 多 少 ? 

J. R. Ryland 计算 机 公司 正在 考虑 一 项 厂房 扩建 计 
划 ， 以 便 公 司 能 够 开始 生产 一 种 新 的 计算 机 产品 。 
公司 总 裁 作 须 决定 是 进行 中 型 还 是 大 型 扩建 工程 ， 
新 产品 的 需求 量 是 一 个 不 确定 因素 ， 对 于 规划 目 
标 可 能 出 现 低 、 中 或 高 三 种 需求 ， 估 计 与 这 三 种 
需求 对 应 的 概率 分 别 为 0.20、0.50 和 0.30。 在 下 
表 中 ,4# 和 7Y 分别 表 示 策 划 者 预测 中 型 和 大 型 扩建 
工程 的 年 利润 (单位: 1000 美元 )。 


中 型 扩建 工程 利润 大 型 扩建 工程 利润 

X f(xX) y f(y) 

低 50 0,20 0 0.20 

需求 “中 150 0, 50 100 0. 50 
高 200 0.30 300 0. 30 


a. 计算 两 种 扩建 方案 的 利润 的 数学 期 望 。 基 于 期 
望 利润 最 大 化 的 目标 ， 你 推荐 哪 种 方案 ? 

b. 计算 两 种 扩建 方案 的 利润 的 方差 。 基 于 风险 或 
不 确定 性 最 小 化 的 目标 ， 你 推荐 哪 种 方 委 ? 


关于 两 个 随机 变量 的 概率 分 布 称 为 二 元 概率 分 布 (bivariate probability distribution) 。 在 讨论 二 元 概率 分 布 时 ， 


120 商务 与 经 济 统计 


考虑 一 个 三 元 试验 是 非常 有 用 的 。 在 一 个 二 元 试验 中 ， 每 种 试验 结果 由 两 个 值 构成 ， 其 中 每 个 值 与 一 个 随机 变量 相 
对 上 应。 比如， 在 一 个 抛掷 一 对 色 子 的 二 元 试验 中 ， 试 验 结 果 由 两 个 值 构成 ， 其 中 一 个 是 第 一 枚 色 子 的 点 数 ， 另 一 个 
是 第 二 枚 色 子 的 点 数 。 再 比如 ， 观 察 金融 市 场 上 一 只 股票 基金 和 一 只 债券 基金 ， 记 录 它 们 在 一 年 中 的 收益 率 。 试 验 
结果 给 出 随机 变量 的 一 对 值 ， 其 中 一 个 值 是 股票 基金 的 收益 率 ， 另 一 个 值 是 债券 基金 的 收益 率 。 在 处 理 二 元 概率 分 
布 时 ， 我 们 往往 感 兴趣 的 是 随机 变量 之 间 的 关系 。 本 节 ， 我们 将 介绍 二 元 概率 分 布 并 展示 如 何 利用 协 方差 和 相关 系 
数 度 量 随 机 变量 之 间 线 性 关系 的 强 弱 。 我 们 还 会 介绍 如 何 利 用 二 元 概率 分 布 构造 和 分 析 金 融资 产 组 合 。 


5. 4. 1 二 元 经 验 离散 型 概率 分 布 

在 第 有 2 节 ， 我 们 给 出 了 DiCarlo 汽车 公司 在 纽约 萨 拉 加 图 汽车 日 销售 量 的 经 验 离散 分 布 。DiCarlo 汽车 公司 
在 日 内 瓦 还 有 另 一 家 代理 商 。 表 5-7 中 是 日内 瓦 和 萨 拉 加 图 两 位 代理 商 300 天 的 日 汽车 销售 量 。 表 中 最 后 一 行 
(合计 ) 中 的 数值 ， 是 我 们 在 第 5.2 季 用 于 建立 DiCarlo 汽车 公司 在 萨 拉 加 图 代理 商 的 汽车 日 销售 量 经 验 概率 分 布 
时 所 用 的 频数 。 最 后 二 列 (合计 ) 中 的 数值 ， 是 日 内 瓦 代 理 商 的 日 销售 量 频 数 。 表 中 的 数据 是 天 数 ， 这 时 ， 日 内 
瓦 代理 商 的 日 销售 量 为 数据 位 于 的 行 与 第 一 列 对 应 的 那个 水 平 ， 萨 拉 加 图 代理 商 的 日 销售 量 为 数据 位 于 的 列 与 第 
一 行 对 应 的 水 平 。 比 如 ， 表 中 的 数据 33， 对 应 的 日 内 瓦 代理 商 所 在 的 行 标号 为 1， 萨 拉 加 图 代理 商 所 在 的 列 标号 
为 2， 这 说 明 在 300 天 中 有 33 天 萨 拉 加 图 的 日 销售 量 为 2 和 日 内 成 代理 商 的 日 销售 量 为 1 。 


表 5-7 300 天 中 DiCarlo 公司 在 日 内 瓦 和 萨 拉 加 图 代理 商 的 日 汽车 销售 量 


萨 拉 加 图 代理 商 , 
日 内 瓦 代 理 商 0 . 3 3 合计 
0 21 30 24 9 2 0 86 
I 21 36 33 18 2 ] 111 
2 9 42 9 12 3 2 77 
3 3 9 6 3 5 0 26 
合计 54 117 72 42 12 3 300 


假定 我 们 观察 并 记录 DiCarlo 公司 一 天 中 的 汽车 销售 情况 ， 这 构成 一 个 二 元 试验 。 令 w= 日内瓦 代理 商 售 出 的 
汽车 数量 , y = 萨 拉 加 图 代理 商 售 出 的 汽车 数量 。 将 表 5-7 中 的 数据 除 以 观测 值 总 数 “(300) 得 到 DiCarlo 公司 两 家 
代理 商 汽 车 销量 的 三 元 经 验 离散 概率 分 布 , 见 表 5-8。 其 中 ,最 后 一 行 给 出 的 是 DiCarlo 公司 萨 拉 加 图 代理 商 的 边 
际 分 布 ， 最 后 一 列 给 出 的 是 DiCarlo 公司 日 内 瓦 代理 商 的 边际 分 布 。 

表 中 间 部 分 的 概率 值 是 两 家 代理 商 销量 的 二 元 概率 分 布 。 三 元 概率 分 布 常 称 作 联合 概率 。 可 见 ， 一 天 当中 ， 
日 内 瓦 售 出 0 辆 车 萨 拉 加 图 售 出 1 辆 车 的 联合 概率 为 几 0，1) =0.1000, 日 内 瓦 售 出 1 辆 车 萨 拉 加 图 售 出 4 辆 车 
的 联合 概率 为 f(1,4)=0:0067;…， 以 此 类 推 。 注 意 ， 每 种 试验 结果 对 应 着 一 个 二 元 概率 。x 有 4 个 可 能 值 ，y 
有 6 个 可 能 值 ， 因 此 有 24 种 试验 结果 和 二 元 概率 。 


表 5-8 ”DiCarlo 公司 在 纽约 州 日 内 瓦 和 萨 拉 加 图 两 家 代理 商 汽车 日 销量 的 二 元 经 验 离 散 概 率 分 布 


萨 拉 加 图 代理 商 
日 内 瓦 代理 商 下 2 3 l 合计 
0 0.0700 0. 1000 0. 0800 0.0300 0.0067 0.0000 0.2867 
1 0. 0700 0.1200 0. 1100 0.0600 0. 0067 0.0033 0.3700 
2 0.0300 0. 1400 0.0300 . 0. 0400 0.0100 0.0067 0.2567 
3 0.0100 0.0300 0. 0200 0.0100 0.0167 0. 000.0 0.0867 
合计 0. 18 0. 39 0. 24 0. 14 0. 04 0. 01 1. 000 0 


假定 我 们 想 要 知道 DiCarlo 公司 两 家 代理 商 销售 总 量 的 概率 分 布 、 数 学 期 望 和 方差 。 可 以 定义 销售 总 量 * =x +y， 
根据 表 5-8 中 的 二 元 概率 ， 有 : As =0) =0.0700, f(s=1) =0.0700+0.1000=0.1700, f(s=2) =0.0300 +0.1200 寺 
0.0800 =0.2300，…， 以 此 类 推 。 表 5-9 给 出 了 s =x+y 的 完整 的 概率 分 布 ， 并 计算 出 数学 期 望 E(s) =2, 643 3 和 方 
差 Var(s) =2. 389 5。 





表 5-9 计算 DiCarlo 汽车 公司 日 销售 总 量 的 数学 期 望 和 方差 


第 5 章 高 散 型 概率 分 布 


S f(s) sf( s) s-El(s) [s=E(s)]? [s-E(s)]*f(s) 
0 0. 0700 0. 0000 -2,6433 6.987 2 0.489 1 

1 0.1700 0. 1700 一 1.643 3 2. 700 5 0. 459 1 

2 0,2300 0.460 0 —0,6433 0.413 9 0. 0952 

3 0. 2900 0.8700 0. 356 7 0. 127 2 0. 0369 

4 0, 1267 0.5067 1.3567 1, 840'5 0.233 1 

5 0.0667 0.333 3 2. 356 7 5. 5539 05370.3h1 

6 0.023 3 0. 1400 3 35627 11, 267 2 0. 2629 

yl 0.0233 0. 163 3 4. 356 7 18. 980'5 0.442 9 

8 0.0000 0.0000 5.3567 28. 693 9 0.0000 


E(s) =2.6433 Var(s) =2.389 5 


根据 二 元 概率 分 布 ， 我 们 常常 还 想 知 道 两 个 随机 变量 之 间 的 关系 。 协 方差 和 相关 系数 用 来 度量 两 个 随机 变量 
之 间 的 关系 。 在 第 3 章 中 ， 我 们 介绍 了 如 何 根据 样本 数据 计算 协 方差 和 相关 系数 。 计 算 两 个 随机 变量 x 和 y 的 协 
方差 的 公式 如 下 。 





Var(s) = Var(x +y) 已 知 ， 并 且 在 第 5. 2 节 中 已 经 计算 出 Var(y) 。 在 利用 式 (5-6) 计算 * 和 yy 的 协 方差 时 ， 
还 需要 计算 Var(x) 。 根 据 * 的 概率 分 布 ( 见 表 5-8 右 侧 ) ， 在 表 5-10 中 计算 数学 期 望 E(x) 和 方差 Var(x) 。 
表 5-10 计算 DiCario 公司 日 内 瓦 汽车 代理 商 日 销量 的 数学 期 望 和 方差 


f(x) xf( x) x—E(x) [x-E(x)]? [x— E(x)]2f(x) 
0 0. 2867 0.0000 一 1. 143 5 1.3076 0.3749 
1 0.3700 0. 3700 一 0. 143 5 0.0206 0. 007 6 
2 02507 0 5134 0. 856 5 0.856 5 0. 188 3 
林 0. 086 7 0. 260 1 1, 856.5 1. 85065 0,2988 


E(%) =1.1435 Var(x) =0. 869 6 


0o,, = [Var(x +y) ~ Var(x) — Var(y)]/2 = (2.3895 -0.8696 -1.25)/2 = 0.1350 
协 方差 等 于 0.135 0 表明 DiCarlo 公司 两 家 代理 商 的 日 销量 正 相 关 。 要 更 精确 地 度量 二 者 相关 关系 的 强 弱 ， 还 
可 以 计算 相关 系数 。 
两 个 随机 变量 x 和 y 的 相关 系数 的 计算 公式 见 式 (5-7) 。 由 式 (5-7) 可 见 ， 两 个 随机 变量 的 相关 系数 等 于 协 
方差 除 以 两 个 随机 变量 的 标准 差 之 积 。 









下 面 ， 计 算 DiCarlo 公司 两 家 代理 商 目 销量 的 相关 系数 。 首 先 ， 将 萨 拉 加 图 和 日 内 瓦 代理 商 销售 量 的 方差 开 
算术 平方 根 求 标准 差 。 


,= V0.8696 = 0.9325 
0o, = v2 = 1.1186 


9 
ll 


日 。 当 Var(x+y) 未 知 时 ， 另 一 个 计算 x 和 y 协 方差 的 常用 公式 为 ; osy = 吕 [x5 一 E(xi)] [yi -BE(y)1f[ (zi 21)] 
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然后 计算 度量 两 个 随机 变量 线性 关系 强 弱 的 相关 系数 。 


在 第 3 章 中 ,我 们 已 将 给 出 了 相关 系数 的 定义 。 相 关系 数 度量 两 个 变量 之 间 线性 关系 的 强 弱 。 相 关系 数 的 什 
越 接近 于 +1， 表 明 同 向 线性 关系 越 强 ， 越 接近 于 - 1， 表 明 反 向 线性 关系 越 强 ， 越 接近 于 0， 越 表明 没有 线性 关 
系 。 对 于 随机 变量 ， 这 个 性 质 仍然 成 立 。 相 关系 数 为 0. 129 5， 表 明 两 个 随机 变量 之 间 有 弱 的 正 相关 关系 ， 其 中 随 
机 变量 是 两 家 DiCarlo 公司 代理 商 的 日 销量 。 若 相关 系数 为 0， 则 我 们 可 以 得 出 两 家 代理 商 的 日 销量 之 间 是 相互 独 
立 的 结论 。 


5. 4. 2 金融 上 的 应 用 


下 面 ， 我 们 看 看 如 何 将 所 学 的 内 容 用 于 建立 一 个 金融 资产 组 合 ， 在 收益 和 风险 之 间 寻 求 平衡 。 一 名 理财 顾问 
认为 来 年 的 经 济 形 势 可 能 有 四 种 情形 。 令 x 表示 大 型 股 表 5-11 ”大 型 股票 基金 的 投资 收益 率 x 和 政府 长 期 





票 基金 的 投资 收益 率 ，y 表示 政府 长 期 债券 基金 的 投资 债券 基金 的 投资 收益 率 y 的 概率 分 布 
收益 率 。 针 对 每 种 经 济 形势 ， 理 财 顾问 建立 了 x 和 y 的 经 济 概率 大 型 股票 基金 ”长 期 政府 债券 基金 
概率 轨 布 。 表 5- 了 1 闫 轴 和 :的 二 元 概 汪 芬 布 。 表 中 为 每 一 lu 川 ws ia 
种 试验 结果 (经济 形势 ) 单独 列 出 一 行 。 每 行 中 包括 试 。 yw。 0 了 本 

验 结果 的 联合 分 布 以 及 随机 变量 的 取 值 。 由 于 只 有 四 个 ”jw 0.50 i 

联合 概率 ， 因 此 表 5-11 的 形式 比 DiCarlo 汽车 公司 采用 快速 增长 ” 0.15 30 2 


的 表格 形式 要 简单 ，DiCarlo 汽车 公司 采用 的 表格 中 有 4 
x6 =24 个 联合 概率 。 

利用 第 5. 3 节 中 计算 单个 随机 变量 的 数学 期 望 的 公式 ， 可 以 计算 股票 基金 投资 的 期 望 收 益 率 严 (x) 和 债券 基 
金 投资 的 期 望 收益 率 E(y)。 

E(x)=0.1 x(-40) +0.25 x5 +0.5 x15 +0.15 x30 = 9.25 
E(y)=,0.1 x30 +0.25 X54+0.5 x4 +0.15 x2 = 6.55 

根据 这 一 信息 ， 我 们 可 能 会 得 出 结论 认为 投资 于 股票 更 好 。 其 收益 率 更 高 ， 达 到 9. 25% 。 但 是 理财 分 析 师 建 
议 投资 者 还 要 考虑 投资 的 风险 。 收 益 率 的 标准 差 常常 用 于 衡量 风险 。 要 计算 标准 差 ， 必须 先 计算 方差 。 利 用 第 
5. 3 节 中 计算 单个 随机 变量 的 方差 的 公式 ， 可 以 计算 股票 基金 投资 收益 率 和 债券 基金 投资 收益 率 的 方差 。 

Vartw) = 0.1 x (=40 =9.25) F025 x (5 =—9.25) +0.5 x(15 一 9.257 +0,.15 x (30—9.25) 
= 328, 1875 
Vaxr(y) a0.1 x (MW. -6.55)2 +0.25 x (5 -6.55)* +0,5 x (4.76.55) +015 x (2 -6.55)" 
= 61.9475 

股票 基金 投资 收益 率 的 标准 差 为 go, =V328.1875 = 18. 115 9% ,债券 基金 投资 收益 率 的 标准 差 为 wy = 
V61.9475 =7. 8707% 。 于 是 ， 我们 得 出 结论 认为 债券 投资 的 风险 更 低 ， 其 标准 差 更 小 。 可 见 ， 股 票 基金 的 投资 收 
益 率 更 高 。 是 投资 于 债券 基金 还 是 投资 于 债券 基金 ? 这 取决 于 你 面 对 收 益 和 风险 的 态度 。 一 个 积极 的 投资 者 可 能 
会 选择 股票 基金 ， 因 为 它 的 收益 率 更 高 。 一 个 保守 的 投资 者 可 能 会 选择 债券 基金 ， 因 为 它 的 风险 更 高 。 但 是 ， 除 
此 之 外 还 有 其 他 的 选择 。 可 以 选择 投资 于 一 个 由 股票 基金 和 债券 基金 组 成 的 资产 组 合 。 

假定 我 们 想 要 考虑 三 种 投资 方式 : 单独 投资 于 大 型 股票 基金 、 单 独 投资 于 政府 长 期 债券 基金 、 将 资金 平均 分 
配对 股票 基金 和 债券 基金 各 投资 一 半 。 我 们 已 经 计算 出 了 单独 投资 于 股票 基金 和 单独 投资 于 债券 基金 时 收益 的 数 
学 期 望 值 和 标准 差 。 现 在 评价 第 三 种 投资 方式 ， 建 立 一 个 资产 组 合 ， 将 资金 平均 分 配对 大 型 股票 基金 和 政府 长 期 
债券 基金 各 投资 一 半 。 

为 了 评价 这 个 资产 组 合 ， 我 们 从 计算 它 的 期 望 收益 开始 。 前 面 我 们 已 经 定义 x 表示 股票 基金 的 投资 收益 率 ，y 
表示 债券 基金 的 投资 收益 率 。 因 此 资产 组 合 的 投资 收益 率 为 >=0. S$x +0. 5y。 在 一 个 资产 组 合 中 ,一 半 投 资 于 股票 
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基金 一 半 投 资 于 债券 基金 各 投资 一 半 ， 要 计算 其 期 望 收益 等 价 于 计算 E(r) =E(0.5x +0.5y)。 表 达 式 0. 5x +0.5y 
称 作 随机 变量 * 和 y 的 线性 组 合 。 当 已 知 E(x) 和 E(y) 已 知 时 , 式 (5-8) 给 出 了 一 个 便于 计算 随机 变量 x 和 y 
的 线性 组 合 的 数学 期 望 的 方法 。 在 式 (5-8) 中 ，a 是 线性 组 合 中 * 的 系数 ，! 是 线性 组 合 中 y 的 系数 。 





由 于 已 经 计算 出 (x) =9.25 和 E(y) =6.55， 因 此 可 以 利用 式 (5-8) 计算 资产 组 合 的 期 望 值 。 
有 (0.57 0.57y) = 0.5E(x) +0.5E(y) 三 0. 5 x0.25 +0.5 x6.55 =7.9 

可 见 ， 资产 组 合 的 期 望 投资 收益 为 7.9% 。 若 投资 100 美元 ， 则 预期 会 收益 100 x 0.079 =7.9 美元 ; 若 投资 
1 000 美元 ， 则 预期 会 收益 1 000 x 0. 079 = 79. 00 美元 ，…， 以 此 类 推 。 租 是 ， 风 险 如 何 呢 ? 正如 前 文 所 提 到 的 ， 
理财 分 析 人 员 常 常用 标准 差 度量 风险 。 

我 们 的 资产 组 合 是 两 个 随机 变量 的 一 个 线性 组 合 ， 因 此 为 了 评价 资产 组 合 的 风险 我 们 需要 计算 两 个 随机 变量 
的 线性 组 合 的 方差 和 标准 差 。 当 两 个 随机 变量 的 协 方差 已 知 时 ， 可 以 利用 式 (5-9) 计算 两 个 随机 变量 的 线性 组 
合 的 方差 。 


i 


由 式 (5-9) 可 见 ， 资 产 组 合 是 两 个 随机 变量 的 线性 组 合 ， 为 了 计算 资产 组 合 的 方差 .需要 计算 每 个 随机 变 
量 的 方差 以 及 两 个 随机 变量 之 间 的 协 方差 。 

我 们 已 经 计算 出 两 个 随机 变量 各 自 的 方差 分 别 为 : Var(%) =328. 1875 和 Var(y) =61.947 5。 并 且 可 以 得 出 
Var(x+y) =119.46S。 因 此 ， 利 用 式 (5-6) 计算 两 个 随机 变量 x 和 y 的 协 方差 。 

= [Var(x+y) - Var(x) - Var(y)]/2 = (119.46 - 328. 1875 - 61.9745)/2 = -135.3375 
像 上 文中 这 样 得 到 x 和 Yy 的 协 方差 为 负 ， 意 味 着 当 x 倾向 于 高 于 其 均值 时 y 倾向 于 低 于 其 均值 ， 反 之 亦 然 。 
可 以 利用 式 (5-9) 计算 资产 组 合 收益 的 方差 。 
Var(0.5x +0.5y) = 0.5: x328.1875 +0.5? x61.9475.+2xX0.5 x0.5 x(-135.3375) = 29. 865 


资产 组 合 的 标准 差 rusow = V 29. 865 =5. 465 0% ， 它 度量 了 股票 基金 和 债券 基金 各 投资 50% 的 资产 组 合 的 风险 。 
对 三 种 投资 方式 : 单独 投资 于 股票 基金 ， 单 独 投资 于 债券 基金 ， 建 立 一 个 资产 组 合 将 资金 等 额 地 投资 于 股票 
和 债券 基金 ， 也 许 我 们 想 要 进行 比较 , 表 5-12 给 出 了 每 种 投资 方式 收益 的 数学 期 望 、 标 准 差 和 方差 。 


表 5-12 ”三 种 投资 方式 的 数学 期 望 、 方 差 和 标准 差 





A z 收益 率 的 数学 期 望 (%) “ 《收益 率 的 方差 收益 率 的 标准 差 (%) 
100% 投 资 于 股票 基金 9. 25 328. 187 5 18. 1159 
1 6. 55 61.947 5 7. 8707 





29. 865 5;4650 


这 些 方法 中 你 更 倾向 于 采用 哪 一 种 ? 100% 投资 于 股票 基金 的 期 望 收益 最 高 但 是 风险 也 最 大 ， 标 准 差 为 
18. 115 9% 。100% 投资 于 债券 基金 的 期 望 收益 最 低 ， 但 是 风险 也 显然 更 小 。50% 投资 于 股票 基金 50% 投资 于 债券 
基金 (资本 组 合 ) 的 期 望 收益 是 单独 投资 于 股票 基金 和 单独 投资 于 债券 基金 的 收益 的 平均 值 。 但 是 ， 资 产 组 合 的 
风险 比 单独 投资 于 任意 一 种 基金 的 风险 都 要 低 。 的 确 ， 资 产 组 合 比 单独 投资 于 债券 基金 的 收益 高 并 且 风险 低 ( 标 
准 差 更 小 ) 。 因 此 ， 我 们 说 投资 于 资产 组 合 优 于 单独 投资 于 债券 基金 。 


加 “采用 上 一 节 中 在 DiCaao 汽车 公司 例子 相同 的 方法 ， 计 算得 到 Var(x +y) =119.46。 
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是 选择 投资 于 股票 基金 ， 或 者 债券 基金 还 是 资本 组 合 ? 这 取决 于 你 面 对 风 险 的 态度 。 股 票 基 金 的 期 望 收 益 更 
高 。 不 过 ， 资 本 组 合 明 显 风 险 更 低 而 且 还 有 相当 不 错 的 收益 。 许 多 人 愿意 选择 资本 组 合 。 正 是 由 于 股票 基金 和 债 
券 基金 之 间 的 协 方 差 为 负 ， 使 得 资本 组 合 的 风险 比 单独 投资 于 某 一 种 基金 的 风险 低 这 么 多 。 

在 刚才 的 资产 组 合 分 析 中 ， 是 50% 投资 于 股票 基金 50% 投 资 于 债券 基金 。 对 其 他 形式 的 资产 组 合 ， 该 如 何 计 
算 其 数学 期 望 和 方差 呢 ? 式 (5-8) 和 式 (5-9) 可 以 方便 地 用 于 完成 这 些 计算 。 

假定 我 们 新 建 一 个 资产 组 合 ，25 狗 投资 于 股票 基金 ，75% 投资 于 债券 基金 。 新 的 资产 组 合 的 数学 期 望 和 方差 
是 多 少 呢 ?该 资产 组 合 的 收益 为 r=0.25x +0, 75y， 可 以 根据 式 (5-8) 计算 资产 组 合 的 数学 期 望 。 

E(O0:25% +0.753y) = 0.25E(x) +0Q:75E(y) -=,0.25 x9,25 + 0.75 x6.55 二 了 . 225 
同 理 ， 我 们 可 以 根据 式 (5-9) 计算 资产 组 合 的 方差 : 
Var(0, 25x + 0.75y) = 0.25 Var(x) +0.75 Var(y) +2 x0.25 x0.750,, 
= 0.0625 x 328. 1875 + 0.5625 x 61. 947 5 +0.375 x (= 135. 337.5) 
= 4.605 6 


新 的 资产 组 合 的 标准 差 wu ,0 71s, = v4.6056 =2. 1461。 


5. 4. 3 小 结 


在 本 节 ， 我 们 介绍 了 二 元 离散 概率 分 布 。 由 于 这 种 分 布 涉 及 两 个 随机 变量 ,我 们 常常 对 度量 变量 之 间 的 关系 
感 兴趣 。 我 们 介绍 了 协 方差 和 相关 系数 这 两 种 度量 方法 ， 并 演示 了 如 何 计 算 。 相 关系 数 越 接 近 1 或 者 -1， 表 明 
两 个 随机 变量 之 间 的 关系 越 密切 。 相 关系 数 取 值 接近 0， 则 表明 两 个 随机 变量 之 间 的 关系 薄弱 。 若 两 个 随机 变量 
相互 独立 ， 则 协 方差 和 相关 系数 都 等 于 0。 

我 们 还 展示 了 如 何 计算 随机 变量 的 线性 组 合 的 数学 期 望 和 方差 。 从 统计 的 观点 来 看 ， 金 融资 产 组 合 是 随机 变 
量 的 线性 组 合 。 实 际 上 ， 这 是 一 种 我 们 称 之 为 加 权 平 均 的 特殊 的 线性 组 合 。 组 侣 系数 非 负 并 且 系 数 之 和 为 1。 在 
我 们 给 出 的 例子 中 ， 资 产 组 合 由 股票 基金 投资 和 债券 基金 投资 组 成 。 以 此 为 例 我 们 展示 了 如 何 计算 资产 组 合 的 数 
学 期 望 和 方差 。 对 于 任何 由 两 种 金融 资本 构成 的 资产 组 合 ， 都 可 以 用 这 种 方法 计算 其 数学 期 望 和 方差 。 各 个 随机 变 
量 之 间 的 协 方差 为 负 ， 这 减 小 了 资产 组 合 的 方差 ， 大 部 分 降低 资产 组 合 风 险 的 理论 正 是 基于 此 而 提出 分 散 投资 的 。 


注释 和 评论 

1. 式 (5-8) 和 式 (5-9) 以 及 它们 扩展 到 三 个 或 者 三 个 以 上 随机 变量 的 结果 ， 是 金融 资产 组 合 构建 和 分 析 的 
关键 构建 。 

2. 式 (5-8) 和 式 《5-9) 用 于 计算 两 个 随机 变量 的 线性 组 合 的 数学 期 望 和 方差 ， 可 以 扩展 到 三 个 或 者 三 个 以 
上 随机 变量 的 情况 。 式 (5-8) 的 扩展 很 直接 ， 只 要 在 公式 中 加 入 新 添加 的 随机 变量 的 项 目 就 可 以 了 。 式 
(5-8) 的 扩展 则 更 为 复杂 ， 要 在 公式 中 加 入 所 有 随机 变量 的 两 两 协 方差 。 这 些 扩 展 留 待 高 级 教材 中 介绍 。 

3. 式 (5-9) 中 的 协 方 差 说 明了 为 什么 负 相 关 的 随机 变量 (不 同 的 投资 方式 ) 能 够 减 小 方差 ， 从 而 降低 资产 
组 合 的 风险 。 





方法 C= So 

26. 某 人 起 要 建立 一 个 资产 组 合 。 他 考虑 两 只 股票 ， 念 a 求 股票 | 和 股票 2 投资 的 标准 差 。 用 标准 差 度 
x 表示 股票 1 的 投资 收益 率 ，y 表示 股票 2 的 投资 量 风 险 ， 哪 一 只 股票 的 投资 风险 更 高? 
收益 率 。 股 票 1 的 期 望 收 益 和 方差 分 别 为 E(x) = b. 某 人 用 500 美元 投资 购买 股票 1， 求 投资 的 期 望 
8.45% 和 Var(x) =25。 股 票 2 的 期 望 收 益 和 方差 收益 和 标准 差 。 


分 别 为 B(y) =3.2% 和 Var(y) =1。 收 益 的 协 方差 c. 某 人 建立 一 个 资产 组 侣 ， 每 只 股票 各 投资 50% ， 


28. 


D, 





求 投资 的 期 望 收益 和 标准 差 ( 以 美元 计 )。 
d. 菜 人 建立 一 个 资产 组 合 ，70% 投资 于 股票 1，30% 
投资 于 股票 ， 2， 求 投资 的 期 望 收益 和 标准 差 。 
e. 计算 x 和 yy 的 相关 系数 ， 并 评述 这 两 只 股票 收益 
率 之 间 的 关系 。 
PortaCom 开发 设计 了 一 款 高 品质 的 便携 式 打 印 机 。 
直接 人 工 和 零件 是 制造 成 本 的 两 个 关键 组 成 部 分 。 
在 测 斌 阶段， 公司 开 发 出 产品 的 欠 形 并 对 新 型 打 
印 机 产品 进行 广泛 的 测试 。PortaCom 的 工程 师 给 
出 如 下 制造 成 本 的 二 元 概率 分 布 。 今 随机 变量 x 表 
示 每 台 打 印 机 的 零件 成 本 ， 随 机 变量 y 表示 每 台 打 
印 机 的 直接 人 工 成 本 ， 单 位 是 美元 。 管 理 者 想 要 
根据 这 个 概率 分 布 估计 制造 成 本 。 


直接 人 工 (y) 
零件 (XX) 向 PE 十 合计 
85 0.05 0.2 0.2 0. 45 
95 0.25 0.2 0.1 0, 55 
会 计 0. 30 0.4 0.3 1. 00 


a 给 出 直接 人 工 成 本 的 边际 分 布 并 计算 其 数学 期 
望 、 方 差 和 标准 差 。 

b. 给 出 零件 成 本 的 边际 分 布 并 计算 其 数学 期 望 、 
方差 和 标准 差 。 

c. 单位 制造 总 成 本 等 于 直接 人 工 成 本 和 零件 成 本 
之 和 。 给 出 单位 制造 总 成 本 的 概率 分 布 。 

d. 计算 单位 制造 总 成 本 的 数学 期 望 、 方 差 和 标准 差 。 

e. 直接 人 工 成 本 和 零件 成 本 相互 独立 吗 ? 为 什么 ? 


二 项 概率 分 布 


30. 
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如 果 你 的 结论 是 不 独立 ， 那 么 直接 人 工 成 本 和 
零件 成 本 之 间 的 关系 如 何 ? 

f PortaCom 生产 了 1 500 台 打 印 机 用 于 产品 推介 ， 
总 制造 成 本 为 198 350 美元 。 这 和 你 预期 的 一 样 
吗 ? 如 果 比 你 预期 的 偏 高 或 者 偏 低 ， 你 认为 是 
什么 原因 ? 

除了 (29) 题 中 S&P 500 和 核心 债券 的 信息 之 外 ， 

摩根 大 通 资产 管理 还 报告 了 不 动产 投资 信托 公司 

(REITs) 的 期 望 收益 率 为 13.07%， 标 准 差 为 

23. 17% (摩根 大 通 资产 管理 ，《 市 场 指南 》，2012 

年 第 一 季度 )。S&P 500 和 REITs 的 相关 系数 为 

0.74; 核心 债券 和 REITS 的 相关 系数 为 -0.04。 

a. 根据 所 给 出 的 信息 ， 求 S&P 500 和 核心 债券 的 
协 方差 。 

b， 建立 一 个 资产 投资 组 合 ，S&P 500 指数 基金 投资 
和 REITSs 投资 各 占 50% 。 求 资产 组 合 的 期 望 收 
益 率 和 标准 差 。 

c. 建立 一 个 资产 投资 组 合 ， 核 心 债 券 基 金 投资 和 
REITs 投资 各 占 50% 。 求 资产 组 合 的 期 望 收益 
率 和 标准 差 。 

d， 建立 一 个 资产 投资 组 合 ， 核 心 债券 基金 投资 占 
80% ，REITs 投资 占 20% 。 求 资产 组 合 的 期 望 
收益 率 和 标准 差 。 

e; 你 会 建议 一 个 激进 的 投资 者 采用 (b)、(c) 和 
(d) 中 哪 一 个 资产 投资 组 合 ? 你 会 建议 一 个 保 
守 的 投资 者 采用 哪 种 资产 投资 组 合 ? 为 什么 ? 


二 项 概率 分 布 是 一 种 离散 型 概率 分 布 ， 具 有 广泛 的 应 用 。 它 与 一 个 称 为 二 项 试验 的 多 步骤 试验 有 关 。 


5.5.1 二 项 试验 
二 项 试验 (binomial experiment) 具有 以 下 四 个 性 质 。 


jn 


es ny 


如 果 一 个 试验 具有 性 质 2、 性 质 3 和 性 质 4， 我们 称 该 试验 是 由 伯 努 利 过 程 产生 的 。 男 外 ， 如 果 该 试验 还 具 


日 ”瑞士 人 雅 各 布 * 伯 努 利 (Jakob Bemoulli，1654 一 1705 年 ) 是 伯 努 利家 族 最 杰出 的 数学 家 ， 发 表 了 关于 排列 和 组 合理 论 以 及 二 项 式 


定理 的 概率 论文 。 
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有 性 质 二 ， 则 称 其 为 二 项 试验 。 图 5-2 给 出 了 一 个 由 成 功 和 失败 组 成 的 序列 ， 它 是 一 个 包含 8 次 试验 的 二 项 试验 。 

在 二 项 试验 中 ， 我们 感 兴趣 的 是 在 n 次 试验 中 成 功 出现 的 次 数 。 如 果 令 x 代表 ni 次 试验 中 成 功 的 次 数 ， 则 x 
的 可 能 值 为 0,，1, 2，3，.…,，n。 由 于 随机 变量 取 值 的 个 数 是 有 限 的 ， 所 以 x 是 一 个 离散 型 随机 变量 。 与 这 一 随 
机 变量 相对 应 的 概率 分 布 称 为 二 项 概率 分 布 (binomial probability distribution)。 例 如 ， 考 虐 抛 5 次 硬币 的 试验 ， 每 
一 次 都 观察 硬币 着 地 时 正面 朝 上 还 是 反面 朝 上 。 假 设 我 们 想 要 计算 5 次 抛掷 中 正面 出 现 的 次 数 。 这 个 试验 具备 二 
项 试验 的 性 质 吗 ? 感 兴趣 的 随机 变量 是 什么 ? 注意 : 

(1) 试验 由 5 次 相同 的 试验 组 成 ， 每 次 试验 都 是 抛 一 枚 硬币 。 

(2) 每 次 试验 都 有 两 种 可 能 的 结果 : 正面 朝 上 或 反面 朝 上 。 害 义 正面 朝 上 为 成 功 ， 反面 朝 上 为 失败 。 

(3) 在 每 次 试验 中 ， 正面 朝 上 和 反面 朝 上 的 概率 都 是 一 样 的 ， 即 p=0.5, 1 -p=0.5。 

(4) 因为 任意 一 次 试验 的 结果 都 不 影响 其 他 各 次 试验 (抛掷 ) ， 所 以 各 次 试验 〈 抛 拖 ) 是 独立 的 。 


性 质 1: 试验 由 n=8 个 相同 的 试验 组 成 。 
性 质 2: 每 次 试验 结果 为 成 功 “5) 或 失败 (F) 。 


实验 次 数 





结果 


图 5-2 在 一 个 8 次 试验 组 成 的 二 项 试验 中 ， 由 成 功 和 失败 组 成 的 一 个 序列 


于 是 ， 满 足 二 项 试验 的 性 质 。 感 兴趣 的 随机 变量 为 x = 抛掷 5 次 硬币 正面 朝 上 的 次 数 ， 这 时 x 的 可 能 取 值 为 
0 1 2 2 4S 

考虑 另 一 个 例子 ， 一 名 保险 推销 员 随 机 选择 10 个 家 庭 进行 访问 。 每 次 访问 的 结果 无 外 乎 两 种 : 成 功 一 一 该 
户 购 买 保险 ; 失败 一 一 该 户 没 有 购买 保险 。 根 据 过 去 的 经 验 ， 推 销 员 已 知 随机 选择 的 家 庭 会 购买 保险 的 概率 为 
0. 10。 它 满足 二 项 试验 的 性 质 吗 ? 显然 : 

(1) 试验 由 10 次 相同 的 试验 组 成 ， 每 一 次 试验 是 访问 一 个 家 庭 。 

(2) 每 次 试验 中 有 两 种 可 能 的 结果 : 成 功 一 一 该 户 购买 保险 ; 失败 一 一 该 户 没有 购买 保险 。 

(3) 每 次 访问 中 ， 家 庭 是 否 购买 保险 的 概率 是 相同 的 ， 即 ; p=0. 10, 1 -p=0. 90。 

(4) 由 于 家 庭 是 随机 选择 的 ， 所 以 试验 是 独立 的 。 

这 是 一 个 二 项 试验 ， 它 满足 二 项 试验 的 四 条 性 质 。 感 兴趣 的 随机 变量 是 访问 的 10 个 家 庭 中 购买 保险 的 家 庭 
数 。 这 时 ,的 可 能 取 值 为 0,1,,2，3，4,，5,，6,，7，8,， 9 或 10。 

二 项 试验 的 性 质 3 称 为 平稳 性 假设 ， 它 有 时 容易 与 性 质 4 (试验 的 独立 性 ) 混 消 。 为 了 区 分 二 者 的 不 同 ， 再 
次 考虑 推销 员 访问 家 庭 推销 保险 的 例子 。 如 果 一 段 时 间 后 ， 推 销 员 由 于 疲惫 而 失去 热情 ， 比 如 ， 到 第 10 次 访问 
时 ,成 功 ( 卖 出 保险 ) 的 概率 下 降 到 0.05。 这 时 ， 性 质 3 (平稳 性 ) 不 能 满足 ， 从 而 试验 不 再 是 二 项 试验 。 即 便 
该 试验 满足 性 质 4( 即 每 个 家 庭 的 购买 决策 是 独立 的 ) ， 但 如 果 不 满足 性 质 3 ， 那 么 试验 也 不 是 一 个 二 项 试验 。 

在 二 项 试验 的 应 用 中 ， 常 常用 到 一 个 称 为 二 项 概率 函数 的 公式 ， 它 用 于 计算 = 次 试验 中 * 次 成 功 的 概率 。 利 
用 第 4 章 已 介绍 的 有 关 概 率 的 概念 ， 下 面 我 们 通过 例子 说 明 如 何 使 用 这 一 公式 。 


5. 5.2 马丁 服装 商店 的 问题 

考虑 光顾 马丁 服装 商店 的 3 名 顾客 购买 服装 的 情况 。 根 据 过 去 的 经 验 ， 商 店 经 理 估计 每 名 顾客 购买 服装 的 概 
率 是 0.30。 那 么 , 在 3 名 顾客 中 有 2 名 顾客 购买 服装 的 概率 是 多 少 ? 

根据 树 形 图 ( 见 图 5-3) ，3 名 顾客 中 每 名 顾客 各 自作 出 购买 决策 ， 从 而 试验 有 8 种 可 能 的 结果 。 用 5 表示 成 
功 ( 购 买 ) ,F 表示 失败 未 购买 ) ， 我 们 感 兴趣 的 是 3 次 试验 (购买 决策 ) 中 有 2 次 成 功 的 试验 结果 。 接 下 来 ， 
可 以 将 3 次 购买 决策 组 成 的 试验 序列 看 作 一 个 二 项 试验 ， 它 满足 二 项 试验 的 四 个 基本 条 件 : 
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(1) 可 以 将 试验 认为 是 由 3 个 相同 的 试验 组 成 的 序列 ， 在 3 名 光临 商店 的 顾客 中 ， 每 名 顾客 对 应 于 一 次 试验 。 

(2) 每 次 试验 都 只 有 两 种 试验 结果 : 顾客 购买 (成功) 或 不 购买 《失败 ) 。 

(3) 假设 对 所 有 顾客 而 言 ， 顾 客 购买 的 概率 (0.30) 或 不 购买 的 概率 (0.70) 都 是 相同 。 

(4) 每 个 顾客 的 购买 决策 与 其 他 顾客 的 购买 决策 相互 独立 。 

于 是 ,满足 二 项 试验 的 性 质 。 
第 一 位 顾客 第 三 位 顾客 


S (SS 5) 3 
F (3, 5, FP) 2 
a (S, F, 5) 2 
F 
| (F, S$, 5) 2 


hk (FS, F) ] 


S= 购 买 
f= 未 购买 
= 购买 的 顾客 人 数 


图 5-3 马丁 服装 商店 问题 的 树 形 图 : 
在 n 次 试验 中 , 恰 有 x 次 成 功 的 二 项 试验 里 ， 可 用 以 下 公式 计算 各 种 不 同 结果 的 数目 : 8 








现在 仍 回 到 马丁 服装 商店 的 试验 中 ， 它 涉及 3 名 顾客 的 购买 决策 。 式 (5-10) 可 用 来 确定 “有 2 人 购买 ”的 
试验 结果 的 个 数 。 即 在 n=3 次 试验 中 ， 有 多 少 种 方式 能 得 到 x = 成 功 2 次 。 由 式 (5-10) 我 们 有 : 
(和 [ee 


We Sh “ZY ZXTXI' 2 


式 (5-10) 表明 ， 成功 两 次 的 试验 结果 有 3 种 。 从 图 5-3 可 见 ， 这 3 种 结果 分 别 是 (8S, 5S, F),，(S, F，5S) 
NR ls 

利用 式 (5-10) ， 可 计算 出 3 次 试验 中 有 3 次 成 功 (购买 ) 的 试验 结果 的 个 数 为 ; 
at 31 31 3 wax 1 6 


= ed i a 


~ 


日 在 第 4 章 中 ,组 人 台 公 式 确定 从 个 对 象 中 选择 * 个 时 有 多 少 种 不 同 的 选 法 。 对 于 二 项 试验 ,， 组 侣 公式 计算 出 有 多 少 种 不 同 的 试验 
结果 与 “n 次 试验 序列 中 有 * 次 成 功 ”相对 应 。 
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从 图 5-3 可见 ， 只 有 一 种 试验 结果 是 “3 次 成 功 ”， 记 做 (S$,， 5, 5)。 

式 (5-10) 可 用 来 确定 与 x 次 成 功 相对 应 的 试验 结果 的 个 数 。 如 果 我 们 想 要 确定 次 试验 中 x 次 成 功 的 概率 ， 
还 必须 要 知道 其 中 每 一 个 试验 结果 发 生 的 概率 。 由 于 二 项 试验 的 各 个 试验 是 相互 独立 的 ， 我 们 只 需 简 单 地 将 各 个 
试验 结果 发 生 的 概率 相 乘 ， 就 能 得 到 某 个 由 成 功 和 失败 所 组 成 的 特定 试验 序列 发 生 的 概率 。 

令 ($，$，F) 表示 事件 “前 两 名 顾客 购买 而 第 3 名 顾客 未 购买 ” ， 它 的 概率 是 

PP(1 = p) 
由 于 在 每 次 试验 中 ， 购 买 的 概率 为 0.30， 则 “前 两 次 试验 购买 而 第 三 次 未 购买 ”的 概率 是 
0. 30 x 0. 30 x 0.70 =0.30: x0.70 = 0.063 
还 有 两 种 试验 结果 也 都 是 会 导致 “两 次 成 功 和 一 次 失败 "。" 三 次 试验 中 恰 有 两 次 成 功 ” 的 概率 见 下 表 : 


试验 结果 
第 1 名 顾客 。 ”第 2 名 顾客 。 第 3 名 顾客 A WE 
购买 购买 未 购买 ($8, S§, F) pp(1-p) = 天 (1 =-p) =(0.30)”x0.70 =0.063 
购买 未 购买 购 丑 (5, 8) pl(l-p)p=p’ (1 -p)=(0.30)* x0.,70 =0.063 
未 购买 购买 购买 (Fy (1-p)pp = (1-p) =(0.30)? x0.70 =0.063 


可 见 , 与 “ 恰 有 两 次 成 功 ” 对 应 的 三 种 试验 结果 具有 相同 的 概率 。 这 一 观察 结果 通常 总 是 成 立 的 。 在 任何 一 
个 二 项 试验 中 ，n 次 试验 中 恰 有 x 次 成 功 的 所 有 试验 序列 结果 都 具有 相同 的 概率 。 在 次 试验 中 有 zx 次 成 功 的 每 
个 试验 序列 的 概率 如 下 ; 

在 n 次 试验 中 有 x 次 成 功 的 特定 试验 结果 的 概率 = p “(1 -了 ) (5-11) 

对 于 马丁 服装 商店 问题 ， 公 式 表明 任何 一 个 “两 次 成 功 ” 试 验 结果 发 生 的 概率 为 六 (1-p) =p (1-p) 
= (0.30)” x0.70 =0.063。 

式 (5-10) 给 出 一 个 二 项 试验 中 有 x 次 成 功 的 试验 结果 的 个 数 ， 式 (5-11) 给 出 了 zx 次 成 功 的 每 个 试验 序列 
的 概率 ， 结 合式 (5-10) 和 式 (5-11) 得 到 下 面 的 二 项 概率 函数 (binomial probability fonction ) : 





对 于 二 项 概率 分 布 ，* 是 一 个 离散 型 随机 变量 ， 概 率 函数 为 J(x)， 其 中 x*=0, 1, 2, 3,，…,n。 

以 马丁 服装 商店 问题 为 例 ， 我 们 利用 式 (5-12) 计算 “没有 顾客 购买 ”的 概率 、“ 恰 有 一 名 顾客 购买 ”的 概 
率 、“ 恰 有 两 名 顾客 购买 ”的 概率 和 “所 有 三 名 顾客 均 购买 ”的 概率 ， 如 表 5-6 所 示 。 计 算 结果 汇总 于 表 5-13 
中 ， 它 给 出 发 生 购物 行为 的 顾客 人 数 的 概率 分 布 。 图 5-4 是 它 的 概率 分 布 图 。 

表 5-13 购物 的 顾客 人 数 的 概率 分 布 


X 和 (二 i F(X) 
Em 0 ‘es ; le 这 
0 0131 (0;30)™ (0,70)> =0,.343 2 2111 (0.30)° (0.70) =0. 189 
1 二 (0 30)' (0.70)2 =0.441 3 2 (0.30)3 (0.70)° =0.027 
112! ~ L 3101 、 . UY. Vel 
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二 项 概率 函数 可 用 于 任何 二 项 试验 。 只 要 试验 满足 二 项 试验 的 性 质 ， 并 且 我 们 已 知 n 和 5p 的 值 ， 那 么 
便 可 使 用 式 (5-12) 计算 n 次 试验 中 有 %* 次 成 功 的 f 0) 
概率 。 0.50 

如 果 我 们 对 马丁 试验 稍 做 变动 ， 比 如 进入 商店 的 0.40 
顾客 不 是 3 名 而 是 10 名， 由 式 (5-12) 给 出 的 二 项 概 


0.30 

率 函 数 仍 是 可 用 的 。 这 是 一 个 二 项 试验 ,其 中 mn=10， 莫 ，， 

x=4, p=0.30。 从 而 ,10 名 进入 商店 的 顾客 中 恰好 有 。 ，， 

4 人 购物 的 概率 是 
101 1 


1 2 
购物 顾客 人 数 
图 5-4 购物 顾客 人 数 的 概率 分 布 图 


i 4 re 
f(4) Oe x 30 wy 70)” =,2001 


5. 5.3 二 项 概率 表 的 使 用 


人 们 已 经 编制 出 了 数学 用 表 ， 用 于 计算 一 个 共有 次 试验 的 二 项 试验 中 成 功 x 次 的 概率 。 这 些 数 学 用 表 比 式 
(5-12) 使 用 起 来 更 加 容易 和 快捷 。 附 录 B 中 的 表 5 是 一 个 二 项 概率 表 ， 表 5-14 是 从 二 项 概率 表 中 节选 出 的 一 部 
分 。 在 使 用 二 项 概率 表 前 ， 我 们 必须 先 确 定 二 项 试验 中 mw、 PP 和 x 的 值 。 在 表 5-14 的 例子 中 ， 我 们 看 到 n = 10， 
p=0.40 的 二 项 试验 中 成 功 次 数 x=3 的 概率 为 0.215 0。 如 果 你 直接 用 二 项 概率 函数 式 (5-12) ， 也 可 以 得 到 相同 
的 答案 。 


表 5-14 从 二 项 概率 表 查 找 概率 值 
例 : n=10， X=3, p=0,40，f(3) =0; 2150 


p 
4 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0, 35 0. 40 0. 45 0. 50 
9 0 0.630 2 0. 387 4 0. 231 6 0. 134 2 0. 075'1 0.040 4 0.020 7 0.010 1 0. 004 6 0. 002 0 
1 0. 298 5 0. 387 4 0. 367 9 0.302 0 Qk225.3 0. 155°6 0. 100 4 0. 0605 0.0339 0.0176 
2 0.0629 0. 172 2 0.259 7 0. 3020 0.300 3 0. 2668 0.216 2 0. 10612 0.1110 0. 070 3 
3 0.007 7 0. 044 6 0. 106 9 0. 176 2 0. 233 6 0. 266 8 0.2716 0. 250 8 0. 2119 0. 164 1 
4 0.0006 0. 007 4 0. 028 3 0. 066 1 0. 1168 0. 171 3 0.219.4 0. 250 8 0. 260 0 0. 246 1 
人 0.0000 0. 000 8 0. 005 0 0.0165 0.0389 0.0735 0. 118 1 0. 167 2 0.212 8 0. 246 1 
6 0. 000 0 0. 000 1 0. 0006 0. 002 8 0.008 7 0.0210 0.0424 0. 074 3 0.1160 0. 164 1 
+ 0.000 0 0.000 0 0. 000 0 0. 0003 0Q. 0012 0. 003 9 0.009 8 0, 021 2 0.040 7 0.0703 
8 0. 0000 0. 0000 0. 0000 0. 0000 0.000 1 0.0004 0. 001 3 0. 003 5 0. 008 3 0.0176 
9 0, 000 0 0. 000 0 0.0000 0. 0000 0.0000 0. 0000 0. 000 I 0. 000 3 0.000 8 0.0020 
10 0 0,5987 0.3487 0. 1969 0. 107 4 0.0563 0,0282 0.013 5 0.0060 0. 002 5 0. 001 0 
1 0. S15 0.387 4 0. 3474 0. 268 4 0. 1877 了 Oa 0,0725 0. 040 3 0. 0207 0, 009 8 
2 0,0746 0. 193 7 0. 275 9 0. 302.0 0.2816 0,233 5 QUIS 0. 1209 0.0763 0. 043 9 
3 0. 010 5 0. 057 4 0, 129 8 0.201 3 O2508 0, 266 8 0,2522 0.2150 0., 1665 QL:2 
4 0. 001 0 0， 011 2 0. 040 1 0. 088 1 0.1460 0, 200 1 0,2377 0.250 8 0, 2384 0. 205 1 
5 0.000 1 0, 001 5 0. 008 5 0.0264 0.058 4 0. 102 9 0, 153 6 0, 2007 0.2340 0, 246 1 
0 0. 0000 0. 000 1 0.001 2 0., 005 5 0.016 2 0.036 8 0. 068 9 0.1115 0. 1596 0, 205 1 
| 0. 0000 0, 0000 0. 000 1 0.0008 0.003 1 0. 009 0 0. 021 2 0. 042 5 0.0746 O1172 
8 0. 0000 0, 000 0 0. 0000 0.000 1 0.0004 0. 001 4 0. 004 3 0.0106 0. 022.9 0.0439 
9 0. 0000 0.0000 0. 0000 0. 0000 0.0000 0. 000 1 0. 000 5 0.0016 0.004 2 0.009 8 
10 0, 0000 0, 0000 0.000 0 0. 0000 0. 000 0 0.0000 0. 0000 0. 000 1 0. 000 3 0.0010 


现在 ， 我 们 使 用 表 5-14 求解 马丁 服装 商店 问题 ， 计 算 10 次 试验 中 有 4 次 成 功 的 概率 。 此 时 , m=10，x =4， 
p=0.30， 直 接 查 二 项 概率 表 得 到 f(4) =0. 200 1。 
尽管 二 项 概率 表 易于 使 用 ,但 表 中 不 可 能 列 出 二 项 试验 可 能 遇 到 的 所 有 nn 和 5p 值 。 如 今 根据 式 (5-12)， 我 们 使 
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用 计算 器 来 计算 想 要 的 概率 并 不 困难 ， 尤 其 在 试验 的 数目 不 大 时 。 在 习题 中 ， 除 非 题目 特别 要 求 你 使 用 二 项 概率 表 ， 
你 应 练习 使 用 式 (5-12) 计算 二 项 概率 。 

如 Minitab 这 样 的 统计 软件 包 和 Excel 这 样 的 电子 表格 软件 包 都 具有 计 
算 二 项 概率 的 功能 。 在 马丁 服装 商店 的 例子 中 , n= 10, p=0.30。 图 5-5 
给 出 了 由 Minitab 产生 的 x 所 有 可 能 值 的 二 项 概率 。 注 意 ， 这 些 值 与 表 5-14 
中 p =0.30 所 在 列 的 值 完 全 相同 。 附 录 5A 给 出 了 如 何 利用 Minitab 得 到 图 
5-5 中 结果 的 步骤 。 附 录 5B 介绍 了 如 何 使 用 Excel 计算 二 项 概率 。 


5. 5. 4 ”二 项 分 布 的 数学 期 望 和 方差 
在 5.3 节 我 们 给 出 了 计算 离散 型 随机 变量 的 数学 期 望 和 方差 的 公式 。 


在 随机 变量 服从 二 项 分 布 的 特定 情形 下 ， 已 知 试验 次 数 为 n， 成 功 的 概率 
为 p， 数 学 期 望 和 方差 公式 得 以 简化 ， 具 体形 式 如 下 。 


江 





0 
1 
ge 
3 
4 
各 
6 
7 
8 
9 
0 


一 一 


图 5-5 .Minitab 输出 结果 一 一 马丁 
服装 店 问题 中 的 二 项 概率 


A 





mh 
We 


E(x) = np =3x0.30 =0.9 
假定 预计 下 个 月 马丁 服装 商店 有 1 000 名 顾客 光顾 ， 那么 购物 顾客 人 数 的 期 望 值 是 多 少 ? 答案 是 
人 =np=1000 x0.3=300。, 因 此 ， 为 增加 购物 人 数 的 期 望 值 ， 马 丁 服 污 商店 必须 吸引 更 多 顾客 光顾 并 且 (或 者 ) 提 
高 每 名 到 店 顾客 购物 的 概率 。 
在 马丁 服装 店 的 例子 中 ， 当 有 3 名 顾客 光顾 时 ， 购 物 人 数 的 方差 和 标准 差 为 : 
or = 7p(1-p) =3x0.3x0.7 = 063 
o=V0.63 = 0.79 
在 随后 光临 的 1000 名 顾客 中 ， 购 物 人 数 的 方差 和 标准 差 为 ; 
oo = np(l -p) =1000x0.3x0.7 =,210 
o = W210 = 14:49 
1. 附录 B 中 的 二 项 概率 表 给 出 了 p 志 0.95 的 概率 值 。 有 的 二 项 概率 表 中 ， 可 能 仅 给 出 了 p 志 0. 50 的 概率 值 。 
当成 功 的 概率 p>0.50 时 ， 这样 的 表 似 乎 是 不 可 用 的 。 然 而 ， 由 于 nnn-x 次 失败 的 概率 也 是 x 次 成 功 的 概 
举 ， 因 此 这 样 的 表 仍 然 是 可 用 的 。 当 成 功 的 概率 p>0.50 时 ,我们 可 以 转 而 计算 nn-x 次 失败 的 概 府 。 当 
Pp >0.50 时 ， 失 败 的 概率 1 -p 志 0. 50。 
. 某 些 二 项 概率 表 是 以 累计 形式 给 出 的 。 在 使 用 这 种 表 计 算 于 次 试验 中 恰好 有 ix 次 成 功 的 概率 时 ， 必 须 减 去 上 
一 项 的 值 。 例 如, f(2) =P(x<2) -P(x<1)。 附 录 B 中 的 表格 直接 给 出 的 是 概率 值 f(2)。 当 使 用 附录 B 中 
的 表 计 算 累 计 概 率 时 ， 只 需 将 表 中 的 概率 值 相 加 即 可 。 例 如 ， 累 计 概 率 P(x<2) =f(0) +f(1) +f(2)。 


Le 





方法 b. 计算 (2)。 


32. 考虑 一 个 二 项 试验 ， 其 中 n=10, p=0.10。 c 计算 P(x<2)。 
计算 f(0)。 d. 计划 BP(%>1), 


@ 计算 斩 (%)。 


: 计算 Var(x) 和 og。 


应 用 
34. 对 洲际 酒店 及 度假 村 进行 一 项 哈里 斯 互动 调查 ， 


询问 受 访 者 ;“ 在 国际 旅行 中 ， 你 通常 是 为 了 文化 
体验 而 独自 冒险 还 是 随 旅 行 团 按 行程 出 行 ?” 调查 
发 现 ， 有 23% 的 受 访 者 选择 跟随 旅行 团 (《 今 日 美 


” 国 》，2004 年 1 月 21 日 )。 


36. 


38. 


5. 6 





率 分 布 (poisson probability distribution) @ 


a. 在 一 个 由 6 名 国际 游客 组 成 的 样本 中 ， 性 好 有 
两 人 跟随 旅行 团 旅 行 的 概率 是 多少? 

b. 在 一 个 由 6 名 国际 游客 组 成 的 样本 中 ， 至 少 有 
两 人 跟随 旅行 团 旅 行 的 概率 是 多 少 ? 

c. 在 一 个 由 10 名 国际 游客 组 成 的 祥 末 中 ， 没 有 人 
随 旅 行 团 旅 行 的 概率 是 多 少 ? 

当 新 机 器 正常 运转 时 ， 只 有 3% 的 产品 是 废品 。 假 

设 随 机 选取 机 器 生产 的 两 个 零 部 件 ， 我 们 感 兴 趣 

的 是 其 中 废品 的 件数 。 

a 落 这 个 试验 是 二 项 试验 ， 应 满足 哪些 条 件 ? 

b. 绘制 与 图 5-3 类 似 的 树 形 图 ， 说 明 这 是 一 个 由 
两 次 试验 组 成 的 试验 序列 。 

c 有 多 少 个 试验 结果 会 导致 “恰好 发 现 一 个 废 
本 ”9 

d 计算 “没有 发 现 广 品 ”、“ 愉 好 发 现 一 件 废品 ” 
以 及 “恰好 发 现 两 件 广 品 ” 的 概率 。 

在 敌人 入 侵 时 ， 设 计 要 求 军 事 雷 达 和 导弹 探测 系 

统 发 出 警报 。 可 人 靠 性 指 的 是 探测 系统 是 否 能 发 现 

攻击 并 发 出 敬告。 假设 某 探 测 承 综 龙 探测 到 导 漳 

攻击 的 概率 为 0.90， 利 用 二 项 概率 耸 布 回答 以 下 

问题 。 


泊 松 概率 分 布 
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a 单个 探测 系统 能 够 发 现 攻 击 的 概率 是 多 少 ? 

b， 如 果 将 两 套 探 测 系统 安装 在 同一 地 区 独立 工作 ， 
则 至 少 有 一 套 探 测 系 统 能 发 现 攻击 的 概率 是 
多 少 ? 

c. 如 果 安 装 了 三 套 探 测 系统 ， 则 至 少 有 一 套 系 统 
能 发 现 攻击 的 概率 是 多 少 ? 

d. 你 建议 使 用 多 套 探测 系统 吗 ? 为 什么 ? 


. 美国 人 口 普查 局 最 近 的 人 口 调查 显示 ， 年 龄 在 25 


岁 及 以 上 的 人 中 有 28% 已 经 完成 了 四 年 制 的 大 学 
学 业 ( 《纽约 时 报 年 鉴 》，2006 年 )。 对 于 由 15 名 
年 龄 在 25 岁 及 以 上 的 人 组 成 的 一 个 样本 ， 回 答 下 
列 问 题 . 


a 恰好 有 4 人 完成 了 四 年 制 的 大 学 学 业 的 概率 是 


多 好 9 
b. 至 省 有 3 人 完成 了 四 年 制 的 大 学 学 业 的 概率 是 
SS? 
据 亚 美 利 交易 控股 公司 进行 的 一 次 调查 发 现 ， 有 
17X4 的 投资 者 在 其 资产 投资 组 合 中 包括 有 交易 型 开 


放 式 指数 基金 (《 今 日 美国 )，2007 年 1 月 11 日 )。 


对 于 由 20 名 投资 者 组 成 的 一 个 样本 ， 求 ， 

a. 恰好 有 4 名 投资 者 在 其 投资 组 合 中 有 交易 型 开 
放 式 指数 基金 的 概率 。 

b. 至 少 有 2 名 投资 者 在 其 投资 组 合 中 有 交易 型 开 
放 式 指数 基金 的 概率 。 

c. 如果 你 发 现 恰 有 12 名 投资 者 在 其 投资 组 合 中 有 
交易 型 开放 式 指数 基金 ， 你 会 对 调查 结果 的 精 
确 度 产 生 怀 疑 吗 ? 

d. 计算 在 投资 组 合 中 有 交易 型 开放 式 指数 基金 的 
投资 者 人 数 的 数学 期 望 。 


本 节 我 们 介绍 一 个 常用 的 离散 型 随机 变量 ， 它 主要 用 于 估计 在 特定 时 间 段 或 空间 中 某 事件 发 生 的 次 数 。 例 
如 ， 我 们 感 兴趣 的 随机 变量 可 能 是 一 小 时 内 到 达 洗车 房 的 汽车 数 、10 英里 长 的 高 速 公路 上 需要 维修 的 路 段 数 
目 或 者 100 英里 长 的 水 管 有 多 少 处 发 生 泄漏 。 如 果 事 件 出 现 的 次 数 满足 以 下 两 个 性 质 ， 则 随机 变量 服从 泊 松 概 


mm < nm 





龟 泊 松 概率 分 布 经 常用 来 模拟 排队 时 随机 到 达 的 数目 。 





po 


PR 
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泊 松 概率 函数 (poisson probability function) 由 式 (5-15) 给 出 : 






对 泊 松 概率 分 布 ，x 是 一 个 离散 型 随机 变量 ， 它 表示 区 间 上 事件 发 生 的 次 数 。 由 于 没有 对 事件 发 生 的 次 数 指 
明 上 限 ， 因 此 在 概率 函数 A(x) 中 ， 有 %=0，1,2,… 即 随机 变量 的 取 值 有 无 限 多 种 可 能 。 在 实际 应 用 中 ， 当 x 
最 终 取 值 非常 大 时 ,f(x) 近似 为 0。 因 此 ， 对 一 些 太 大 的 * 值 ， 可 忽略 其 发 生 的 可 能 性 。 


5. 6. 1 一 个 时 间 段 上 的 例子 


假定 我 们 感 兴 趣 的 是 ,工作 日 时 上 15 分 钟 内 到 达 某 汽车 银行 出 纳 窗 日 处 的 汽车 数量 。 如 果 假 设 在 任意 两 个 
相等 长 度 的 时 间 段 内 汽车 到 达 的 概率 是 相等 的 ， 并 且 在 任意 一 段 时间 内 是 否 有 汽车 到 达 与 其 他 时 段 内 是 否 有 汽车 
到 达 是 相互 独立 的 ， 那 么 泊 松 概率 函数 是 适用 的 。 假 定 以 止 假 设 都 成 立 ， 并 且 对 历史 数据 的 分 析 显 示 ，15 分 钟 
的 时 间 段 中 到 达 的 车 辆 数目 的 平均 值 为 10。 这 时 ， 采 用 以 下 概率 函数 : 

f(x) _ te 


x! 
其 中 ， 随 机 变量 x =15 分 钟 的 时 间 段 中 到 达 的 汽车 数 。 
如 果 管 理 人 员 想 要 知道 15 分钟 内 恰 有 5 辆 汽车 到 达 的 概率 ， 那 么 令 x=5， 有 : 


15 分 钟 内 恰 有 5 辆 汽车 到 达 的 概率 = f/(5》= 和 = 0.0378 


尽管 在 j=10, x =5 处 计算 概率 函数 就 可 以 确定 这 一 概率 ， 但 通常 查 泊 松 分 布 表 更 为 方便 。 泊 松 分 布 表 给 出 
了 与 特定 的 x 和 有 相对 应 的 概率 ， 参 见 附录 B 中 表 7。 为 使 用 方便 ， 表 5-15 是 从 表 7 中 节选 的 一 部 分 。 注 意 ， 查 
表 时 我 们 只 需 知道 x 和 的 值 即 可 使 用 泊 松 概率 表 。 从 表 5-15 可 见 ， 位 于 表 中 x =5 的 行 和 几 = 10 的 列 交叉 位 置 
上 的 值 就 是 15 分 钟 内 有 5 辆 汽车 到 达 的 概率 。 从 而 ， 我 们 得 到 f(5) =0. 037 8。 


表 5-15 ”从 泊 松 概率 表 查 找 概率 值 概率 表 节 选 值 
例 ; y=10, x=5, f(5) =0.0378 








严 
9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10 
0 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0000 
1 0.0010 0.0009 0.0009 00008 00007 0.0007 0.0006 00005 00005 ”0.0005 
2 0.0046 0.0043 0:0040 00037 00034 00031 -0.0029 0.0027 0.0025 0.0023 
3 0.0140 0.0131 0.0123 00ll5 0.0107 0.0100 0.0093 0.0087 ‘0.0081 0.0076 
4 0.0319 0.0302 .0.0285 0.0269 0.0254 0.0240 0.0226 0.0213 0.0201 0.0189 
5 0.0581 0.0555 0.05330 0.0506 0.0483 0.0460 0.0439 0.0418 0.0398 0.0378 
6 0.0881 0.0851 0.0822 0.0793 0.0764 0.0736 0.0709 0.0682 0.0656 0.0631 
7 0.1145 OQ.1lll8g 0.1091 0.1064 01037 0.1010 0.0982 0.0955 ‘0.0928 0.0901 
8 0.1302 0.1286 0.1269 01251 01232 O1212 0191 Ql70 ‘0.1148 0.1126 
9 0.1317 0Q.1315 0.1311 0.1306 0.1300 0.1284 0.1274 0.1263 0.1251 


0. 1293 


加 “西蒙 . 泊 松 于 1802 ~ 1808 年 在 巴黎 Ecole Polytechnique 讲授 数学 。 在 他 1837 年 发 表 的 题目 为 “Researches on the Probability of Criminal 


and Civil Verdicts” 的 文章 中 ， 对 被 后 人 称 为 泊 松 分 布 的 分 布 进行 了 研究 。 
名 ”贝尔 实验 室 利用 泊 松 分 布 模拟 接 到 的 电话 次 数 。 
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( 续 ) 
e 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9. 9 10 
10 0, 1198 0. 1210 0. 1219 0. 122 8 由, 33 0. 124 1 0, 124 5 0. 1249 0, 1250 0.. 125 1 
11 0.099 1 0. 101 2 0. 103 1 0. 104 9 0. 106 7 0. 108 3 0. 109 8 上 加 0. 1125 0. F137 
12 0.075 2 0.0776 0.0799 0.082 2 0. 084 4 0. 0866 0.088 8 0. 090 8 0.0928 0. 094 8 
13 0.0526 0.0549 0.057 2 0.059 4 0. 061 7 0. 0640 0. 066 2 0. 068 5 0.0707 0, 0729 
14 0, 034 2 0.036 1 0.0380 0.0399 0.0419 0.0439 0.0459 0.0479 0. 9500 0.0521 
15 0.0208 0.022 1 0. 023 5 0.0250 0. 026 5 0. 028 1 0. 0297 0.0313 0.0330 0.034 7 
16 0.0118 0.0127 0.0137 0.0147 0.015 7 0.0168 0. 018 0 0.019 2 0.0204 0.0217 
17 0. 006 3 0.0069 0.007 5 0. 008 1 0.008 8 0. 009 5 0, 0103 0.011 1 0.0119 0.012 8 
18 0. 003 2 0.003 5 0.0039 0. 004 2 0.004 6 0. 005 1 0. 005 5 0.0060 0. 006 5 0. 007 1 
19 0.001 5 0. 0017 0..001 9 0.002 1 0. 0023 0, 0026 0, 002 8 0. 003 1 0.0034 0.0037 
20 0. 000 7 0.0008 0. 0009 0.0010 0.001 1 0. 001 2 0. 001 4 0.0015 0.0017 0. 0019 
21 0. 0003 0.0003 0. 000 4 0. 000 4 0. 000 5 0.0006 0. 0006 0. 0007 0.000 8 0.0009 
22 0. 000 1 0. 000 1 0. 000 2 0. 000 2 0. 000 2 0. 000 2 0. 0003 0. 0003 0. 000 4 0. 000 4 
23 0. 000 0 0. 000 1 0. 000 1 0. 000 1 0. 000 1 0. 000 1 0. 000 1 0. 000 1 0. 000 2 0.000 2 
24 0. 0000 0.0000 0. 0000 0.0000 0. 0000 0. 0000 0. 0000 0.000 1 0.000 1 0.000 1 


在 上 面 的 例子 中 ， 泊 松 分 布 的 数学 期 望 j =10， 即 15 分 钟 内 平均 到 达 10 辆 车 。 泊 松 分 布 的 一 个 重要 性 质 是 
它 的 数学 期 望 和 方差 相等 。 从 而 ，15 分 钟 内 到 达 车 辆 数目 的 方差 o =10，, 标准 差 r =V10 =3. 16。 

我 们 的 例子 中 时 间 长 度 是 15 分 钟 ， 这 种 方法 对 其 他 长 度 的 时 间 段 也 同样 适用 。 假 定 我 们 要 计算 3 分 钟 内 有 1 
辆 汽车 到 达 的 概率 。 由 15 分 钟 内 到 达 车 辆 的 期 望 数 为 10 可 得 ，1 分 钟 内 到 达 的 车 辆 的 期 望 数 为 10/15 =2/3 ， 于 
是 3 分 钟 内 到 达 车 辆 的 期 望 数 为 3 x2/3 =2。 令 人 =2， 由 下 面 的 泊 松 概率 函数 即 可 求 得 3 分 钟 内 到 达 * 辆 车 的 
概率 : 





作 x) .= 
3 分 钟 内 有 一 辆 车 到 达 的 概率 计算 如 下 : 
3 分 钟 内 恰 有 1 辆 汽车 到 3 


在 前 面 的 例子 中 ，15 分 钟 内 恰 有 5 辆 汽车 到 达 的 概率 是 0.037 8。 与 3 分 钟 内 恰 有 1 辆 汽车 到 达 的 概率 
(0.2707) 是 不 同 的 。 因 此 ， 在 计算 不 同 长 度 的 时 间 段 上 泊 松 概率 时 ， 必 须 先 计算 在 相应 区 间 上 随机 变量 的 平均 
到 达 比 率 ， 然 后 再 计算 其 概率 。 


5. 6. 2 ”一 个 长 度 或 距离 区 间 上 的 例子 


下 面 ， 我们 介绍 一 个 不 是 在 一 段 时 间 区 间 上 应 用 泊 松 分 布 的 例子 。 假 定 我 们 关心 的 是 高 速 公路 在 重新 整修 后 
的 一 个 月 内 出 现 严重 损坏 地 段 的 数目 。 假 设 任意 两 段 相等 长 度 的 高 速 公 路 上 出 现 一 处 损坏 的 概率 是 相等 的 ， 并 且 
任意 一 段 距离 上 是 否 出 现 损 坏 与 男 一 段 距离 上 是 否 出 现 损 坏 无 关 。 因 此 ， 泊 松 分 布 是 适用 的 。 

假定 我 们 知道 在 重新 整修 后 的 一 个 月 内 ， 平 均 每 英里 有 两 处 受到 严重 损坏 。 求 某 段 3 英里 长 的 高 速 公路 上 没 
有 发 生 严重 损坏 的 概率 。 由 于 我 们 感 兴趣 的 距离 长 度 是 3 英里 ， 显 然 3 英里 长 的 高 速 公路 上 出 现 严 重 损坏 地 段 的 
期 望 数 人 =2 处 /英里 x3 英里 =6 处 。 根 据 式 (5-15) 可 得 ， 没 有 严重 损坏 的 概率 为 F(0) =6 xe /0! = 
0.0025。 因 此 ，3 奖 里 长 的 距离 没有 发 生 严重 损坏 的 情形 几乎 不 可 能 发 生 。 事 实 上 ， 这 个 例子 说 明 这 段 路 至 少 发 
生 1 处 严重 损坏 的 概率 为 1 -0.0025 =0.9975。 








方法 钟 而 不 被 打扰 的 概率 是 多 少 ? 
44. 考虑 一 个 激 松 分 布 ， 其 中 心 =3。 交 48. 去 年 ， 含 早餐 服务 的 旅馆 (B&Bs) 接待 的 客人 
a 写 出 相应 的 泊 松 概率 函数 。 想 对 了 0 万。 于 光 雁 淮 计 入 的 有 世人 人 从 溢 
b. 计算 f(2)。 北美 洲 含 早餐 服务 的 旅馆 的 网 址 。 通 过 网 络 ， 许 
c. 计算 f(1)。 多 B&Bs 得 以 招揽 客人 ( 《时代 周 刊 》〉，2001 年 
d. 计算 P(x 宇 2)。 9 Jin 
应 用 a 计算 工分 钟 的 时 段 中 无 人 登录 该 网 站 的 概率 。 
46. Regional 航空 公司 的 预订 票 处 平均 每 小 时 接 到 48 本 的 时 约 中 王 光 丰 丙 办 且 肖 这 网 站 的 概 李 。 
Foy e. 计算 30 秒 的 时 段 中 至 少 有 一 人 登录 该 网 站 的 概率 。 
a, 计算 5 分钟 内 接 到 3 个 电话 的 概率 。 d. 计算 1 分 钟 的 时 段 中 至 少 有 5 人 登录 该 网 站 的 概率 。 
b, 计算 15 分 钟 内 恰好 接 到 10 个 电话 的 概率 。 50. 每 年 飞行 事故 的 平均 次 数 为 15 次 (The World 4 
c. 假设 现在 没有 等 待 电话 。 如 果 代理 人 需 花 沉 5 全 OD Yo 
分 钟 时 间 才 能 结束 目前 的 通话 ， 那 么 在 这 段 时 a 计算 每 月 飞行 事故 的 平均 值 。 
间 里 预期 有 多 少 个 等 待 电话 ? 没有 等 待 电话 的 b. 求 1 个 月 中 没有 发 生 飞 行事 故 的 概率 。 
概率 是 多 少 ? c. 求 1 个 月 中 恰好 发 生 工 次 飞行 事故 的 概率 。 
d. 如 果 现 在 没有 电话 ， 接 下 来 代理 人 可 休息 3 分 d. 求 1 个 月 中 发 生 飞 行事 故 多 于 1 次 的 概率 。 


5.7” 超 几何 概率 分 布 


超 几何 概率 分 布 (hypergeometric probability distribution) 与 二 项 概率 分 布 联系 密切 。 这 两 种 概率 分 布 主要 有 两 
处 不 同 : 超 几 何 分 布 中 的 各 次 试验 不 是 独立 的 ;各 次 试验 中 成 功 的 概率 不 等 。 

对 于 超 几何 分 布 中 ， 符 号 N 表 示 总 体 容量 ,r 表示 总 体 中 具有 成 功 标志 的 元 素 的 个 数 ，N -r 表示 总 体 中 具有 
失败 标志 的 元 素 的 个 数 。 采 用 不 放 回 抽样 方法 ， 从 总 体 中 抽取 mn 个 元 素 ， 超 几何 概率 函数 (hypergeometric proba- 
bility funetion) 用 来 计算 在 这 z* 个 元 素 中 恰 有 * 个 元 素 具 有 成 功 标志 ，nm -x 个 元 素 具有 失败 标志 的 概率 。 当 这 种 
试验 结果 出 现时 ， 我 们 是 从 总 体 的 ~ 个 具有 成 功 标志 的 元 素 中 抽取 * 个 ， 从 总 体 的 W -r 个 具有 失败 标志 的 元 素 中 
抽取 nn -x 个。 下面 的 超 几 何 概率 函数 f(x) 给 出 了 n 次 试验 中 有 * 次 成 功 的 概率 。 





注意 ， (给 出 从 一 个 容量 为 N 的 总 体 中 抽取 n 个 元 素 有 多 少 种 不 同 的 抽取 方式 ; () 表 示 从 总 体 "个 具有 成 


N-r ; 
功 标志 的 元 素 中 抽取 x 个 元 素 有 多 少 种 不 同 的 抽取 方式 ; |， ，| 表 示 从 总 体 N -个 具有 失败 标志 的 元 素 中 抽取 


n 一 * 个 元 素 有 多 少 种 不 同 的 抽取 方式 。 
对 于 超 几何 概率 分 布 ,x 是 一 个 离散 型 随机 变量 ， 在 式 (5-16) 给 出 的 概率 函数 f(x) 中 x*=0, 1, 2, 3, …,n 
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但 是 ， 只 有 观测 到 的 成 功 次 数 小 于 或 等 于 总 体 中 的 成 功 次 数 (x 志 r)， 并 且 观 测 到 的 失败 次 数 小 于 或 等 于 总 体 中 
的 失败 次 数 (n -x<N=r) 时 , x 的 取 值 才 是 有 效 的 。 对 一 个 或 多 个 x 值 ， 如 果 这 两 个 条 件 不 成 立 ， 则 f(x) =0， 
即 x 取 这 些 值 的 概率 为 0。 

为 说 明 如 何 利 用 式 (5-16) ， 我 们 考虑 其 在 质量 控制 中 的 应 用 。 安 大 略 电器 公司 生产 的 保险 丝 每 盒 有 12 件 。 
假定 一 名 质 检 人 员 从 一 盒 产 品 中 随机 选取 3 件 进行 检验 。 若 这 盒 产 品 中 恰好 有 5 个 保险 丝 是 次 品 ， 则 质 检 员 抽出 
的 3 件 产品 中 恰好 发 现 1 件 次 品 的 概率 是 多 少 ?” 此 时 , n=3, N= 二 ,r=5, x=1， 从 而 


| (li 


Rl) = a = ee Md 
四” 
现在 假定 我 们 想 知道 至 少 有 1 件 次 品 的 概率 。 那 么 ， 一 种 最 简单 的 做 法 是 先 计 算出 质 检 员 没有 发 现 次 品 的 概 
率 。x =0 的 概率 是 
图 Na 由- 
A0) = ly lars) (smd 是 1 要 md 
(s P+ 司 员 


由 于 0 件 次 品 的 概率 ./(0) =0. 159 1 ， 故 得 到 结论 认为 : 至 少 有 1 件 次 品 的 概率 是 1 -0. 159 1 =0.8409。 因 此 ， 质 
检 员 至 少 发 现 1 件 次 品 的 概率 是 相当 高 的 。 





超 几 何 分 布 的 均值 和 方差 如 下 。 
E(x) = = n( 态 ) (5-17) 
wt -下 em 


在 前 面 的 例子 中 ,n=3, r=5, N=12， 于 是 次 品 保险 丝 件 数 的 均值 和 方差 是 


pie 


标准 差 gq = v0. 60 =0.77。 

注释 和 评论 

考虑 nn 次 试验 的 超 几 何 分 布 , 令 p=r/N 表示 首 次 试验 中 成 功 的 概率 。 当 总 体 容量 足够 大 的 时 候 ， 式 (5-18) 
中 的 (入 -n)A(N-1) 近似 等 于 1。 于 是 ， 数 学 期 望 E(x) =np,， 方差 Var(x) =np(1 -p)。 这 与 二 项 分 布 的 数学 


期 望 和 方差 的 表达 式 相 同 ， 见 式 (5-13) 和 式 (5-14)。 因 此 ， 当 总 体 容量 足够 大 的 时 候 ， 超 几何 分 布 可 以 用 试 
验 次 数 为 nn， 成 功 概 举 p=r/N 的 二 项 分 布 近 似 。 





- A sp 了 
一 


方法 €, N=4, X=4。 


六 52. 假定 WN=10,，r=3 计算 nn 和 x 取 下 列 值 时 的 超 几 ”应 用 
何 概 沸 。 54. 在 盖 洛 善 进行 的 一 项 调查 中 ， 受 访 者 被 问 及 “你 
a n=4, =1, kh n=2; w=26 最 喜欢 观看 的 运动 是 什么 ?” 按 照 偏爱 程度 分 ， 足 


€; hi=2, w=0。 二 二 ww 人 25 球 和 篮球 分 别 排名 第 一 和 第 二 ( Gallupwebsite， 
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2004 年 1 月 3 日 )。 假设 一 个 10 人 小 组 中 ， 有 7 人 

偏爱 足球 ， 有 3 人 偏爱 篮球 。 从 小 组 中 抽出 3 个 人 

组 成 一 个 随机 样本 。 求 : 

a 恰 有 2 人 偏爱 足球 的 概率 是 多 少 ? 

b. 多 数 人 (2 人 或 3 人 ) 偏爱 足球 的 概率 是 多 少 ? 

交 56.，Axline 计算 机 公司 在 两 个 工厂 生产 个 人 电脑 ， 一 个 
位 于 得 克 萨 斯 ， 另 一 个 位 于 夏 威 表 。 得 克 萨 斯 的 
工厂 有 40 名 员工 ， 夏 威 夷 的 工厂 有 20 名 员工 。 随 
机 选取 10 名 员工 组 成 一 个 样本 ， 要 求 他 们 填写 福 
利 调查 问卷 。 
a& 样本 中 没有 夏威夷 工厂 员工 的 概率 是 多 少 ? 
b. 样本 中 有 1 名 夏威夷 工厂 员工 的 概 举 是 多 少 ? 
c. 样本 中 至 少 有 2 名 夏威夷 工厂 员工 的 概率 是 多 少 ? 
d. 样本 中 有 9 名 得 克 萨 斯 工厂 员工 的 概率 是 多 少 ? 

58. 2008 年 10 月 美国 国会 通过 了 问题 资产 救助 计划 
(TARP)， 为 著 苦 挣扎 的 美国 经 济 提供 了 70 亿美 
元 的 帮助 。 其 中 超过 20 亿美 元 拨 给 了 陷入 国境 的 
金融 机 构 ， 希 望 能 增加 贷款 助 推 经 济 复苏 。 但 是 ， 
3 个 月 过 去 了 ， 美 联储 经 调查 发 现 ， 接 受 TARP 基 
金 的 银行 中 有 2/3 收 紧 了 商业 贷款 项 目 ( 《华尔街 





随机 变量 是 对 试验 结果 的 数值 描述 。 随 机 变量 的 
概率 分 布 描述 了 随机 变量 取 不 同 值 的 概率 。 对 任何 高 
散 型 随机 变量 x， 可 以 通过 概率 函数 来 定义 概率 分 布 ， 
记 做 了 (x) 。 它 给 出 了 随机 变量 取 每 一 个 值 的 概率 。 

我 们 介绍 了 离散 型 概率 分 布 的 两 类 形式 。 一 类 是 
在 表格 中 列 出 随机 变量 的 值 和 相应 的 概率 。 我 们 展示 
了 如 何 将 分 配 概 率 的 相对 频率 法 用 于 建立 经 验 离散 型 
概率 分 布 。 我 们 还 讨论 了 二 元 经 验 分 布 。 对 于 二 元 分 
布 ， 兴 趣 的 焦点 是 两 个 随机 变量 的 关系 。 我 们 展示 了 
如 何 计算 协 方差 和 相关 系数 度量 二 者 的 关系 。 我 们 还 
展示 了 金融 资产 市 场 收益 的 二 元 分 布 如 何 用 于 构建 金 
融资 产 组 合 。 

我 们 所 讨论 的 第 二 类 离散 型 概率 分 布 是 用 数学 函 
数 表 示 随 机 变量 的 概率 。 二 项 分 布 、 泊 松 分 布 和 超 几 
何 分 布 都 属于 这 种 类 型 。 当 试验 满足 如 下 性 质 时 ， 可 
使 用 三 项 分 布 确定 次 试验 中 有 zx 次 成 功 的 概率 。 

1; 试验 由 一 系列 完全 相间 的 n 个 试验 组 成 。 

2. 每 次 试验 有 两 种 可 能 结果 。 一 个 称 为 成 功 ， 另 


一 个 称 为 失败 。 


日 报 》，2009 年 2 月 3 日 )。 在 接受 TARP 基金 最 多 
的 10 家 银行 中 ， 实 际 上 这 期 间 仅 有 3 家 银行 增加 了 
贷款 。 


增加 贷款 
美国 BB&T 公司 
太阳 信托 银行 
合 众 银行 


减少 贷款 

美国 银行 

美国 第 一 资本 金融 公司 
花旗 银行 

五 三 银行 

摩根 大 通 

地 区 金融 公司 

美国 富国 银行 


本 题 的 目的 是 ,假定 你 随机 地 从 这 10 家 银行 中 选 

取 3 家 银行 进行 研究 ， 以 便 继续 对 银行 贷款 业务 

进行 监督 。 令 随机 变量 % 表示 研究 中 增加 了 贷款 的 

银行 数 。 

a f(0) 是 多 少 ? 你 对 该 值 做 何 解释 ? 

b. f(3) 是 多 少 ? 你 对 该 值 做 和 何 解释 ? 

c. 计算 岂 1) 和 f(2)。 求 研究 中 增加 了 贷款 的 银 
行 数 的 概率 分 布 。x 取 多 大 值 时 ， 概率 最 大 ? 

d. 至 少 有 一 家 银行 增加 了 贷款 的 概率 是 多 少 ? 

e. 计算 随机 变量 的 数学 期 望 、 方 差 和 标准 差 。 
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3. 成 功 的 概率 p 不 随 试验 不 同 而 不 同 ， 从 而 失败 
的 概率 1 -p 也 不 随 试验 不 同 而 不 同 。 

4. 试验 是 相互 独立 的 。 

当 以 上 4 条 性 质 都 满足 时 ， 可 使 用 二 项 概率 函数 
确定 nn 次 试验 有 x 次 成 功 的 概率 。 我 们 还 给 出 了 计算 
二 项 分 布 的 均值 和 方差 的 公式 。 

泊 松 分 布 用 于 确定 事件 在 特定 时 间 段 或 空间 中 发 
生 x 次 的 概率 。 在 应 用 泊 松 分 布 时 ， 必 须 满足 以 下 
假设 : 

1. 在 任意 两 个 相等 长 度 的 区 间 上 事件 发 生 的 概率 
是 相等 的 。 

2. 事件 在 某 一 区 间 上 是 知 发 生 与 其 他 区 间 上 事件 
是 否 发 生 独 立 。 

在 5.7 节 中 介绍 了 第 三 种 离散 型 概率 分 布 一 一 超 
几何 概率 分 布 。 像 二 项 分 布 一 样 ， 它 也 被 用 来 计算 nn 
次 试验 中 有 % 次 成 功 的 概率 ， 但 与 二 项 分 布 不 同 的 是 ， 
各 次 试验 中 成 功 的 概率 不 同 。 






关键 术语 


random variable 随机 变量 对 试验 结果 的 数值 描述 。 

discrete random variable ”离散 型 随机 变量 有 限 多 个 
取 值 或 可 数 无 限 多 个 取 值 的 随机 变量 。 

continuous random variable ”连续 型 随机 变量 在 某 
一 区 间或 多 个 区 间 内 任意 取 值 的 随机 变量 。 

probability distribution “概率 分 布 ”对 于 随机 变量 的 可 
能 取 值 ， 描 述 概率 如 何 分 布 。 

probability function ”概率 函数 是 一 个 记 做 九 x) 的 函 
数 ， 该 函数 给 出 了 离散 型 随机 变量 取 特 定 值 x 的 
概率 。 

empirical discrete distribution ”经 验 离散 分 布 
率 分 布 ， 使 用 相对 频率 的 方法 分 配 概率 

discrete uniform probability distribution ”离散 型 均匀 概 


一 种 概 


率 分 布 一 种 概率 分 布 ， 随 机 变量 取 每 个 值 的 概率 
相等 。 

expected value 数学 期 望 ” 对 随机 变量 中 心 位 置 的 一 
种 度量 。 

variance 方差 对 随机 变量 的 变异 性 或 离散 性 的 一 种 
度量 。 


standard deviation ”标准 差 。 方差 的 算术 平方 根 。 





重要 公 忌 


离散 型 均匀 概率 函数 
Mx) ln (5-3) 
离散 型 随机 变量 的 数学 期 户 
E(x) = pj = 22xf(%) (5-4) 
离散 型 随机 变量 的 方差 
Var(%) 三 @ = ZL (x -1) fw) (5-5) 
随机 变量 %* 和 Y 的 协 方差 
og, = [Var(x +7) ~ Var(%) — Vat(yNM22.(5-6) 
随机 变量 % 和 yy 的 相关 系数 
Cr 
Pi 和 二 (5-7) 
随机 变量 x 和 y 的 线性 组 合 的 数学 期 望 
E(ax + pb) = aE(x) + bE(y) (5-8) 
两 个 随机 变量 的 线性 组 合 的 方差 
Var(ax + by) = a Var(x) + b Var(y)+ 2abg, 
(5-9) 


式 中 ， ou 是 5 和 7 的 协 方差 。 


bivariate probability distribution ”二 元 概率 分 布 关于 
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四 日 


两 个 随机 变量 的 概率 分 布 。 离 散 型 二 元 概率 分 布 给 

出 两 个 随机 变量 的 每 对 可 能 取 值 的 概率 。 

binomial experiment 二 项 试验 有 具有 第 5.5 节 中 四 个 
性 质 的 试验 。 

binomial probability distribution ”二 项 概率 分 布 一 种 
概率 分 布 ， 给 出 二 项 试验 中 元 次 试验 有 x 次 成 功 的 
概率 。 

binomial probability function 
算 二 项 概率 的 函数 。 

poisson probability distribution ” 泊 松 概率 分 布 一 种 
概率 分 布 ， 给 出 在 一 段 特 定时 间或 室 间 中 某 个 事件 
发 生 % 次 的 概率 。 

poisson probability function ” 泊 松 概率 函数 ”用 来 计算 
泊 松 概率 的 函数 。 

hypergeometric probability distribution” 超 几 何 概 率 分 
布 是 一 种 概率 分 布 ， 当 从 具有 rr 个 “成 功 ” 元 素 
和 N-r 个 “失败 ”元 素 的 总 体 中 抽取 nn 次 时 ， 给 出 
恰好 有 次 成 功 的 概率 。 

hypergeometric probability function 超 几 何 概 率 函 数 

用 来 计算 超 几何 概率 的 函数 。 


了 , 1 5 人 
re | a 
3 Dp 


n 次 试验 中 恰 有 x 次 成 功 时 ， 试验 结果 的 数目 


(a 


二 项 概率 函数 ”用 来 计 






(5-10) 


二 项 概率 函数 
f(x) = es” (5-12) 
万 
二 项 分 布 的 数学 期 户 
Dj 二 二 ($-13) 
二 项 分 布 的 方差 
Var(x) = 0” = np(l] =p) (5-14) 
泊 松 概率 函数 
f(s) = Ee— (5-15) 
超 儿 何 概率 函数 
r\/N-r 
ba 
办 琴 富 证 (5-16) 






60. 美国 个 人 投资 者 协会 向 高 级 互助 基金 公布 了 一 份 


有 
出 上 售 报 刊 (平装 书 、 报 纸 和 杂志 ) 和 零食 (花生 、 
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超 儿 何 分 布 的 数学 期 望 
E(x) = pj = 以 六 ) 


(5-17) 


| 


年 度 指 南 《 《高 级 互助 基金 个 人 投资 指南 》，22e， 
美国 个 人 投资 者 协会 ，2003 年 )。 下 表 是 互助 基金 
中 29 类 项 目 总 的 风险 等 级 。 

风险 

低 

低 于 平均 水 平 

平均 水 平 

高 于 平均 水 平 

高 


”基金 数目 


ww OO WwW OO 对 


a. 令 *=1 表示 低 风 险 , x=5 表示 高 风险 。 求 风险 


水 平 的 概率 分 布 。 

b. 求 总 风险 的 数学 期 望 和 方差。 

c. 有 11 项 基金 属于 债券 基金 。 在 债券 基金 中 ， 有 
7 类 基金 属于 低 风 险 ，4 类 基金 风险 属于 低 于 平 
均 求 平 。 对 比分 析 18 只 股票 基金 及 债券 基金 的 
总 风险 。 

位 于 亚特兰大 市 哈 茨 菲尔德 - 杰克 进 机 场 的 书 亭 


株 盐 卷 饼 和 糖果 等 )。 销 售 点 终端 (POS) 中 收集 
了 消费 者 大 量 的 购买 信息 。 下 表 中 给 出 了 最 近 600 
名 顾客 购买 零食 和 报刊 的 数量 。 


阅读 材料 
0 1 2 
0 0 60 18 
零食 1 240 90 30 
2 120 30 12 


a 随机 选取 一 名 消费 者 ， 令 x= 零食 购买 量 ，y = 


报刊 购买 量 。 根 据 表 中 数据 求 %* 和 Y 的 经 验 离 
散 型 二 元 概率 分 布 。 求 顾客 购买 1 种 报刊 和 2 
种 零食 的 概率 。 求 顾客 只 购买 1 种 零食 的 概率 。 
概率 f(x=0, y=0) =0， 为 什么 ? 

b. 给 出 零食 购买 量 的 边际 概率 分 布 ， 并 求 其 数学 
期 望 和 标准 差 。 

. 求 报刊 购买 量 的 数学 期 望 和 标准 差 。 

. 令 t= 和 零食 和 报刊 购买 量 之 和 ,给 出 1 的 概率 分 


[| 


68. 


超 儿 何 分 布 的 方差 
Vat(x) = 0 =n( 专 )(1 -起 )( 议 = 
布 ， 并 求 其 数学 期 望 和 标准 差 。 
e. 计算 x 和 7 的 协 方差 和 相关 系数 。 顾 客 购买 零食 
数量 和 报刊 数量 之 间 的 关系 如 何 ? 









. 调查 发 现 ， 使 用 月 票 的 人 单程 从 家 到 工作 单位 均 


需要 耗 时 26 分钟。 此 外， 有 50% 的 使 用 月 票 的 人 
从 家 到 工作 单位 单程 耗 时 超过 1 小 时 。( 交 通 统计 
署 网 站 ，2004 年 1 月 )。 

a. 如 果 茶 天 调查 20 名 使 用 月 票 的 人 ， 则 有 3 人 单 
程 耗 时 超过 1 小 时 的 概率 是 多 少 ? 

如果 某 天 调查 20 名 使 用 月 票 的 人 ， 则 没有 人 单 
程 耗 时 超过 .1 小 时 的 概率 是 多 少 ? 

c. 如 果菜 公司 有 2000 名 雇员 ， 则 从 家 到 工作 单位 
单程 耗 时 超过 1 小 时 的 使 用 上 月票 的 雇员 人 数 的 
期 望 值 是 多 少 ? 

d 恕 果 某 公司 有 2000 名 准 员 ， 则 人 家 到 工作 单位 
单程 耗 时 超过 1 小 时 的 使 用 月 票 的 雇员 大 数 的 
方差 和 标准 差 是 多 少 ? 


— 


. 许多 公司 使 让 一 种 叫 作 “可 接受 抽样 ”的 质量 控 


制 技术 检测 运 来 的 零 部 件 、 原 材料 等 。 在 电子 行业 

中 ， 通 常 零 部 件 都 是 从 供应 商 那里 大 批量 购 进 。 检 

测 一 个 零件 样本 ， 可 看 作 一 个 和 包含 见 次 试验 的 二 项 

试验 。 每 一 次 零件 检测 〈 试 验 ) 的 结果 为 零件 完 

好 或 损坏 。 假 如 一 批零 忻 中 损坏 率 不 超过 1% ， 那 

么 Reynolds 电子 公司 就 会 接受 供应 商 的 这 批零 件 。 

假设 从 新 近 运 来 的 一 批零 件 中 随机 抽出 5 件 组 成 样 

本 进行 检测 。 

a. 假设 这 批零 件 有 1% 损坏 ， 求 样本 中 没有 零件 损 
坏 的 概率 。 

b. 假设 这 批零 件 肛 % 损 坏 ， 求 样本 中 恰 有 1 件 损 
坏 的 概率 。 

c. 如 果 这 批零 件 有 4 多 B 损 十， 求 样本 中 至 少 有 1 件 
损坏 的 概率 。 

. 如 果 发 现 有 工件 零件 被 损 乓 ， 这 批 货物 你 会 欣 
然 接受 吗 ? 为 什么 ? 

佐 将 比 国际 公司 的 一 项 民意 调查 显示 ， 在 那些 认 

为 音乐 在 他 们 的 生活 中 发 挥 了 “非常 重要 的 作用 ” 

的 美国 人 中 ， 有 30%' 的 受 访 者 表示 当地 的 广播 电 


[= 


70. 


台 “ 总 是 ”播放 他 们 喜欢 的 音乐 ， (Zogby 网 站 ， 

2004 年 1 月 12 日 )。 假 定 由 800 名 认为 音乐 在 他 们 

的 生活 中 发 挥 了 “非常 重要 的 作用 ”的 美国 人 组 

成 一 个 样本 。 

a. 你 预期 有 多 少 人 认为 当地 的 广播 电台 “总 是 ” 
播放 他 们 喜欢 的 音乐 ? 

b. 认为 当地 的 广播 电台 “总 是 ”播放 他 们 喜欢 的 
音乐 的 人 数 的 标准 差 是 多 少 ? 

c. 认为 当地 的 广播 电台 没有 “总 是 ”播放 他 们 襄 
欢 的 音乐 的 人 数 的 标准 差 是 多 少 ? 

一 条 新 的 自动 生产 线 平均 每 天 出 现 故 障 1.5 次 。 由 

于 每 次 故障 都 会 增加 成 本 ， 管 理 部 门 关 心 一 天 发 生 

3 次 或 更 多 次 故障 的 概率 。 假 设 故 障 是 随机 发 生 

的 ， 任 何 两 段 相等 时 间 段 内 有 一 次 故障 发 生 的 概率 

相等 ， 并 且 一 段 时 间 内 是 和 否 发 生 故 障 与 另 一 段 时 间 

是 否 发 生 故 障 是 独立 的 。 求 一 天 中 有 3 次 及 以 上 故 

障 的 概率 是 多 少 ? 
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72. 顾客 们 随机 而 独立 地 进入 一 家 银行 。 每 分 钟 内 有 1 


74. 


名 顾客 来 到 的 概率 都 相等 。 假 设 平均 每 分 钟 有 3 名 

顾客 来 到 ， 试问: 

a. 1 分 钟 内 恰好 有 3 名 顾客 到 来 的 概率 是 多 少 ? 

b. 1 分 钟 内 至 少 有 3 名 顾客 到 来 的 概率 是 多 少 ? 

《美国 新 闻 与 世界 报道 ) 对 美国 的 商学 院 进行 排 

和 名， 哈佛 大 学 和 斯坦福 大 学 的 商学 院 并 列 榜首 。 此 

外 ， 排 名 7 到 10 名 的 商学 院 毕 业 生 的 平均 成 绩 点 

数 (GPA) 不 低 于 3.50 (“美国 最 好 的 商学 院 ”, 

《美国 新 闻 与 世界 报道 》，2009 年 )。 假 定 从 排名 前 

十 的 商学 院 中 随机 选取 两 所 。 试 问 : 

a. 恰 有 1 所 商学 院 学 生平 均 成 绩 点 数 (GPA) 不 
低 于 3. 50 的 概率 是 多 少 ? 

b. 两 所 商学 院 学 生平 均 成 绩 点 数 (GPA) 都 不 低 
于 3.50 的 概率 是 多 少 ? 

c. 两 所 商学 院 学 生平 均 成 绩 点 数 (GPA) 都 低 于 
3.50 的 概率 是 多 少 ? 












































实践 中 的 统计 ;宝洁 公司 
6.1 均匀 概率 分 布 









6.2 正 态 概率 分 布 em 
6.3 二 项 概率 的 正 态 近 似 
6.4 指数 概率 分 布 中 
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实践 中 的 统计 
宝洁 公司 


俄 襄 俄 州 


宝洁 公司 生产 和 销售 诸如 洗涤 剂 、 纸 尿布 、 非 处 
方 类 的 药品 、 牙 靖 、 肥 皂 、 滞 口水 和 纸巾 等 产品 。 在 
世界 各 地 ， 它 比 其 他 日 用 消费 品 公司 在 各 个 领域 拥有 
更 多 的 知名 品牌 。 由 于 收购 了 吉 列 公司 ， 宝 洁 公司 还 
生产 和 销售 闲 须 九 、 刃 片 以 及 许多 其 他 个 人 护理 产品 。 

作为 在 决策 中 应 用 统计 方法 的 领导 者 ， 宝 洁 公 司 
雇用 具有 各 种 学 术 背 景 的 人 士 : 工程 学 、 统 计 学 、 运 
筹 学 和 商务 。 这 些 人 士 提供 的 定量 技术 主要 有 概率 决 
策 和 风险 分 析 、 高 级 模拟 、 质 量 改 进 和 数量 方法 〈 如 
线性 规划 、 回 归 分 析 、 概 率 分 析 ) 。 

宝洁 公司 的 工业 化 学 部 是 脂肪 乙醇 的 主要 供应 者 ， 
脂肪 乙醇 从 诸如 椰子 油 这 样 的 天 然 原 料 和 石油 衍生 物 
中 提取 。 该 部 门 想 知道 扩建 其 脂肪 乙醇 生产 设备 的 经 
济 风 险 和 机 会 ， 于 是 求助 于 宝洁 公司 概率 决策 和 风险 
分 析 领 域 的 专家 。 经 过 对 问题 的 建 模 分 析 ， 他 们 确定 
获 利 能 力 的 关键 在 于 以 石油 为 原料 和 以 椰子 为 原料 的 
成 本 差异 。 未 来 成 本 是 未 知 的 ， 但 是 分 析 人 员 能 用 下 
列 连续 型 随机 变量 对 它们 进行 近似 。 





提取 1 工 磅 脂肪 乙醇 所 需 椰 子 油 的 成 本 ; 

) 一 一 提取 1 磷脂 肪 乙醇 所 需 石 油 原 料 的 成 本 。 

由 于 赢利 能 力 的 关键 是 这 两 个 随机 变量 间 的 差 ， 
于 是 在 分 析 中 引入 第 三 个 随机 变量 d=x 一 y。 首 先 与 专 
家 们 访谈 后 确定 x 和 yy 的 概率 分 布 。 然 后 ,根据 这 些 
信息 建立 价格 差异 d 的 概率 分 布 。 这 个 连续 型 概率 分 
布 表 明 ， 价 格 差 不 超 过 0.0655 美元 的 概率 是 0.90， 价 
格 差 不 超过 0. 035 美元 的 概率 是 0550。 另 外 ,价格 差 
不 超过 0. 004 5 美元 的 概率 只 有 0. 10  。 

工业 化 学 品 部 认为 ， 将 原材料 价格 差 的 影响 量化 
是 达成 共识 的 关键 。 利 用 所 得 到 的 概率 对 原材料 的 价 
格 差 进行 灵敏 度 分 析 。 这 种 分 析 将 为 管理 戎 的 决策 提 
供 充 分 的 依据 。 

使 用 连续 型 随机 变量 及 其 概率 分 布 有 助 于 宝洁 公 
司 对 其 脂肪 乙醇 产品 的 经 济 风险 进行 分 析 。 本 章 ， 你 
将 会 学 习 连 续 型 随机 变量 及 其 概率 分 布 的 知识 ， 其 中 
包括 统计 学 中 最 重要 的 概率 分 布 一 一 正 态 分 布 。 


多 


上 一 章 中 ,我 们 介绍 了 离散 型 随机 变量 及 其 概率 分 布 。 本 章 ， 我 们 转向 研究 连续 型 随机 变量 。 特 别 讨论 了 三 
种 连续 型 概率 分 布 : 均匀 分 布 、 正 态 分 布 和 指数 分 布 。 

离散 型 随机 变量 和 连续 型 随机 变量 之 间 最 根本 的 区 别 在 于 二 者 在 概率 计算 上 是 不 同 的 。 对 一 个 离散 型 随机 变 
量 ， 概 率 函 数 九 *) 给 出 了 随机 变量 取 某 个 特定 值 的 概率 。 而 对 连续 型 随机 变量 ， 与 概率 函数 相对 应 的 是 概率 密 
度 函 数 (probability density function) ， 也 记 做 fx)。 不 同 的 是 ， 概 率 密度 函数 并 没有 直接 给 出 概率 。 但 是 ， 通 过 
给 定 区 间 上 曲线 久 x) 下 的 面积 给 出 连续 型 随机 变量 在 该 区 间 取 值 的 概率 。 因 此 ， 当 计算 连续 型 随机 变量 的 概率 
时 ,我 们 计算 的 是 随机 变量 在 某 个 区 间 内 取 值 的 概率 。 

由 于 在 任 一 特定 点 上 曲线 拟 *) 下 的 面积 为 零 ， 所 以 连续 型 随机 变量 概率 的 定义 意味 着 它 取 茶 一 特定 值 的 概率 
为 零 。 在 第 6. 1 节 ， 我 们 以 服从 均匀 分 布 的 连续 型 随机 变量 为 例 来 说 明 这 些 概 念 。 

本 章 的 大 部 分 内 容 致 力 于 描述 和 展示 正 态 分 布 的 应 用 。 正 态 分 布 是 非常 重要 的 分 布 ， 它 具有 广泛 的 适用 性 并 
且 在 统计 推断 中 被 广泛 使 用 。 最 后 ， 介 绍 了 指数 分 布 。 在 诸如 等 待 时 间 和 服务 时 间 这 类 因素 的 应 用 研究 中 ， 人 常常 
会 用 到 指数 分 布 。 


6. 1 均匀 概率 分 布 : 
令 随机 变量 * 表示 某 航班 从 芝加哥 飞 往 纽约 的 飞行 时 间 。 假 定 飞行 时 间 可 以 取 区 间 [120，140] 中 的 任意 


日 ”作者 感谢 宝洁 公司 的 Joel Kahn 先生 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
加 “为 保护 数据 所 有 权 ， 此 处 所 给 出 的 价格 差异 是 经 过 改动 的 。 
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值 : 由 于 随机 变量 * 可 以 在 该 区 间 中 取 任 意 值 ， 因 此 xz 不 是 离散 型 随机 变量 而 是 一 个 连续 型 随机 变量 。 假 定 有 足 
够 多 的 实际 飞行 数据 可 以 得 出 结论 : 对 于 区 间 [120;， 140] 内 的 在 意 两 个 1 分 钟 长 度 的 子 区 间 ， 飞 行 时 间 在 这 两 
个 子 区 间 的 概率 是 相同 的 。 “由 于 飞行 时 间 在 每 个 1 分 钟 长 度 的 子 区 间 内 是 等 可 能 的 ， 因 此 称 随 机 变量 x 服从 均匀 
概率 分 布 (uniform probability distribution ) 。 飞 行 时 ” ytx) 

间 是 服从 均匀 分 布 的 随机 变量 ， 它 的 概率 密度 函 





数 为 : 
1/20 120 <x<140 
f(x) "= | z 
to 其 他 20 125 130 135 区 
图 6-1 是 这 一 概率 密度 函数 的 图 形 。 一 般 情 形 飞行 时 间 《〈 分 钟 ) 
下 ， 若 随机 变量 * 服从 均匀 概率 分 布 ， 则 它 的 密度 图 6-1 飞行 时 间 的 均匀 概率 分 布 


boon 
WII 


函数 的 公式 如 下 。 






对 于 飞行 时 间 这 一 随机 变量 ,a =120, b=140。 

对 于 一 个 连续 型 随机 变量 ， 正 如 本 章 前 言 中 所 提 及 的 那样 ， 我 们 仅仅 考虑 随机 变量 在 菜 个 特定 区 间 内 取 值 的 
概率 。 在 飞行 时 间 的 例子 中 ， 一 个 可 接受 的 概率 问题 是 : 飞行 时 间 在 120 ~ 130 分 钟 之 间 的 概率 是 多 大 ? 即 
P(120<x<130) = 了 由 于 飞行 时 间 一 定 介 于 120 分 yt) 
钟 和 140 分 钟 之 间 ， 并 且 概 率 在 这 一 区 间 上 的 分 布 
是 均匀 的 ， 因 此 我 们 有 理由 认为 P(120<x<130) = 
0. 50。 在 下 一 小 节 ， 我 们 说 明 这 一 概率 可 以 通过 计 
算 区 间 [120, 130] 上 曲线 f(x) 下 的 面积 来 得 到 \ | 
( 见 图 6-2)。 “飞行 时 间 (分 钟 ) 


6. 1. 1 ”用 面积 度量 概率 图 6-2 面积 是 飞行 时 间 在 120 ~ 130 分 钟 之 间 的 概率 


观察 图 6-2 中 区 间 [120，130] 上 曲线 所 x) 下 的 面积 。 该 区 域 是 长 方形 ， 长 方形 的 面积 等 于 宽 乘 高 。 区 间 的 
宽 等 于 130 ~ 120 =10， 高 等 于 概率 密度 函数 的 值 f(x) =1x20， 于 是 面积 = 宽 x 高 =10x1/20=10/20 =0. 50。 

对 于 曲线 A(x) 下 的 面积 和 概率 ， 你 发 现 了 什么 ? 二 者 是 相同 的 ! 事实 上 ， 这 一 结论 对 所 有 的 连续 型 随机 变量 
都 成 立 。 一 旦 确定 了 概率 密度 函数 /(x) ， 则 x 在 区 间 [x,， xs] 内 取 值 的 概率 可 通过 计算 在 区 间 [x;，x,] 上 曲 
线 f(x) 下 的 面积 得 到 。 | : \ 

假定 飞行 时 间 服 从 均匀 分 布 并 将 面积 解释 为 概率 ,我 们 就 可 以 回答 许多 关于 飞行 时 间 的 概率 问题 。 例 如 ， 飞 
行 时 间 在 128 ~ 36 分 钟 间 的 概率 是 多 少 ? 区 间 宽 度 是 136 - 128 =8， 高 度 f(x) = 1/20， 于 是 P(128<x<136) =8 x 
1720 =0.40。 . 

注意 ，P(120<x<140) =20 x1/20 =1， 即 曲线 f(x) 下 的 总 面积 等 于 1。 所 有 连续 型 概率 分 布 都 具有 这 一 性 
质 ， 这 与 离散 型 概率 函数 的 概率 之 和 必须 等 于 1 相 类 似 。 对 连续 型 概率 密度 函数 ， 我 们 还 要 求 对 所 有 的 x 值 必须 
满足 f(x) >=0， 这 与 离散 型 概率 函数 要 求 Kx) >0 是 类 似 的 。 

处 理 连续 型 随机 变量 和 离散 型 随机 变量 时 ， 主 要 存在 以 下 两 方面 的 区 别 : 

(1) 我 们 不 再 讨论 随机 变量 取 某 一 特定 值 的 概率 。 取 而 代 之 ， 我 们 讨论 随机 变量 在 某 一 给 定 区 间 上 取 值 的 






P(120<x<130)=Area=1/20(10)=10/20=0.50 


I= 






120 135 140 


日 ”只 要 概率 与 区 间 长 度 成 比例 ， 随 机 变量 就 是 均匀 分 布 。 
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概率 。 

(2) 连续 型 随机 变量 在 某 个 给 定 区 间 [x,，x,] 上 取 值 的 概率 被 定义 为 在 区 间 [xi ， 逻 ]】 上 概率 密度 函数 
所 xz) 曲线 下 的 面积 。 因 为 单 点 是 宽度 为 零 的 区 间 ， 这 意味 着 连续 型 随机 变量 取 某 个 特定 值 的 概率 为 零 -。 这 也 
意味 着 ， 无 论 是 否 包括 端 点 连续 型 随机 变量 在 某 个 区 间 上 取 值 的 概率 是 相同 的 。 连 续 型 随机 变量 的 数学 期 
望 和 方差 的 计算 与 离散 型 随机 变量 类 似 。 然 而 ， 由 于 计算 过 程 涉 及 积分 计算 ,公式 的 严格 推导 参见 高 级 
教程 。 

对 于 本 节 介 绍 的 连续 型 均匀 概率 分 布 ， 数 学 期 望 和 方差 的 公式 如 下 


sy = 和 a (Be) 


式 中 ,a 为 随机 变量 所 能 取 的 最 小 值 ; b 为 随机 变量 所 能 取 的 最 大 值 。 
航班 从 芝加哥 到 纽约 的 飞行 时 间 服 从 均匀 分 布 ， 根 据 上 面 两 个 公式 得 到 ; 


BE + ~ CO ~120) = 33.33 
飞行 时 间 的 标准 差 是 方差 的 算术 平方 根 。 于 是 ，o =5. 77 分 钟 。 


注释 和 评论 
为 了 更 清楚 地 说 明 为 什么 概率 密度 函数 的 高 度 不 是 概率 ， 考 虑 一 个 具有 下 列 均匀 概率 分 布 的 随机 变量 。 
SR Ee O00 
0; 其 他 


% 在 0 和 0.5 之 间 取 值 时 ， 概率 密度 澡 数 的 高 度 是 2。 然 而 ， 我 们 知道 概率 不 可 能 大 于 1。 因 此 ， f(x) 并非 x 的 
概率 。 





a 辣 ， 


方法 b. 生成 的 随机 数 取 值 介 于 0.25 与 0.75 之 间 的 概率 


2. 已 知 随机 变量 x 服从 区 间 [10，20] 上 的 均 忆 是 多 少 ? 

分 布 。 c. 生成 的 随机 数 取 值 不 大 于 0.30 的 概率 是 多 少 ? 

a 绘制 概率 密度 函数 图 。 d. 生成 的 随机 数 取 值 大 于 0. 60 的 概率 是 多 少 ? 

b, 计算 P(x<15)。 e. 在 Excel 工作 表 中 的 50 个 单元 格 中 输入 “= 

c. 计算 P(12<x<18)。 RAND ()”， 生 成 50 个 随机 数 。 

d. 计算 E(x)。 f 计算 (e) 中 所 产生 的 随机 数 的 均值 和 标准 差 。 

e. 计算 Var(x) 。 6. 在 30 分钟 的 电视 情景 喜剧 中 ,平均 有 22 分 钟 是 节 
应 用 目 (CNBC，2006 年 2 月 23 日)。 假 定 节 目的 时 长 


4. 大 多 数 计算 机 语言 都 有 一 个 能 够 生成 随机 数 的 函 近似 服从 18 ~ 26 分 钟 的 均匀 概率 分 布 。 
数 。 在 Excel 中 ，RAND 函数 可 用 于 产生 0 ~1 的 随 a. 一 个 情景 喜剧 播 出 时 ， 节 目 时 长 达到 或 超过 25 


机 数 。 如 果 令 x 表示 用 RAND 函数 生成 的 随机 数 ， 分 钟 的 概率 是 多 少 ? 
那么 x 是 具有 下 列 概率 密度 函数 的 连续 型 随机 变量 。 b: 一 个 情景 喜剧 播 出 时 ， 节 目 时 长 介 于 21 ~25 分 
T1011 钟 的 概率 是 多 少 ? 
ee by 其 他 c. 一 个 情景 喜剧 播 出 时 ， 商 业 或 其 他 非 节 目 插播 时 
a. 绘制 概率 密度 函数 图 。 间 超过 10 分 钟 的 概率 是 多 少 ? 


怠 “为 说 明 随 机 变量 取 任 一 单 点 值 的 概率 为 0， 参 见 图 6-2。 比 如 , 在 *=125 处 , P(x=1.25) =P(125<x<125) =0x1/20 =0。 
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6.2 ” 正 态 概率 分 布 


正 态 概率 分 布 (normal probability distribution ) 是 描述 连续 型 随机 变量 的 最 重要 的 一 种 概率 分 布 。 正 态 分 布 有 
着 广泛 的 实际 应 用 ， 比 如 ， 人 的 身高 和 体重 、 考 试 成 绩 、 科 学 测量 、 
降雨 量 以 及 其 他 类 似 的 数值 ， 都 近似 服从 正 态 粮 率 分 布 。 正 态 概率 分 
布 也 广泛 应 用 于 统计 推断 ， 而 统计 推断 正 是 本 书 其 余部 分 的 主要 内 容 。 
在 这 些 应 用 中 ， 正 态 分 布 描述 了 抽样 可 能 得 到 的 结果 。 





6. 2. 1 正 态 曲 线 
正春 分 布 的 形状 或 形态 可 以 通过 图 6-3 中 钟 形 的 正 态 分 布 曲线 来 均值/ 


说 明 。 定 义 正 态 分 布 的 概率 密度 函数 如 下 ， 这 是 一 条 钟 形 曲线 。 图 6-3 ” 正 态 分 布 的 钟 形 曲线 





我 们 观察 到 ， 正 态 分 布 具 有 下 列 特征 : 

(1) 正 态 分 布 族 中 的 每 个 分 布 因 均 值 y 和 标准 差 o 这 两 个 参数 的 不 同 而 不 同 “。 

(2) 正 态 曲线 的 最 高 点 在 均值 处 达到 ， 均 值 还 是 分 布 的 中 位 数 和 众 数 。 

(3) 分 布 的 均值 可 以 是 任意 数值 : 负数 、 零 或 正 数 。 下 图 给 出 了 有 相同 的 标准 差 但 有 不 同 均值 ( -10、0 和 


20) 的 三 个 正 态 分 布 





一 10 0 20 


(4) 正 态 分 布 是 对 称 的 。 均值 左边 的 曲线 形状 是 均值 右边 的 曲线 形状 的 镜像 。 曲 线 的 尾 端 向 两 个 方向 无 限 延 


伸 ， 昌 到 论 上 水 通过 会 上 本 得。 TA, 从 而 它 不 是 仿 斜 的 ， 偏 度 为 0。 
人 





日 法 国 数学 家 棣 莫 弗 (Abraham de Moivre) 在 1733 年 出 版 的 The Doctrine of Chances 中 推导 了 正 态 分 布 。 
昌 下 态 曲 线 的 两 个 参数 yw 和 oc， 确 定 了 正 态 分 布 的 位 置 和 形状 。 
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(6) 正 态 随机 变量 的 概率 由 正 态 曲线 下 的 面积 给 出 。 正 态 分 布 曲 线 下 的 总 面积 是 1。 由 于 分 布 是 对 称 的 ， 曲 
线 下 方 均值 左 侧 的 面积 为 0. 5 ， 曲 线 下 方 均 和 值 右 侧 的 面积 也 是 0. 5。 

(7) 下 面 是 随机 变量 在 一 些 常 用 区 间 内 取 值 的 百分比 ” 。 99.7 三 

a 正 态 随机 变量 有 68;3% 的 值 在 均值 加 减 一 个 标准 差 的 范 95.4% 
围 内 。 68.3% 

b. 正 态 随机 变量 有 95. 4% 的 值 在 均值 加 减 两 个 标准 差 的 范 =[ 
围 内 。 

c. 正 态 随 机 变量 有 99.7% 的 值 在 均值 加 减 三 个 标准 差 的 范 
围 内 。 

图 6-4 是 对 上 述 性 质 a、b 和 < 的 图 示 。 


6. 2.2 ”标准 正 态 概率 分 布 

如 果 一 个 随机 变量 服从 均值 为 0 并 且 标 准 差 为 1 的 正 态 分 布 ， 
则 称 该 随机 变量 服从 标准 正 态 概率 分 布 (standard normal probabil- 
ity distribution) 。 通 常用 字母 z 表示 这 一 特殊 的 正 态 随机 变量 。 
图 6-5 是 标准 正 态 分 布 的 图 ， 它 与 其 他 正 态 分 布 有 相同 的 形状 ， 
不 同 的 是 =0 和 =1。 对 于 正 态 概 率 密度 ， 曲 线 的 高 度 是 不 断 
变化 的 ， 需 要 采用 积分 计算 曲线 下 的 面积 一 一 概率 。 

由 于 人 =0 和 ez =1， 标 准 正 态 概率 密度 函数 的 公式 如 下 ， 它 
比 式 (6-2) 更 为 简单 。 
















ulo 下 BIG |! 
-26 L120 


6-4 ” 正 态 分 布 曲 线 下 的 面积 


与 其 他 连续 型 随机 变量 一 样 ， 可 以 通过 计算 概率 密度 函数 曲线 下 的 面积 得 出 正 态 分 布 的 概率 。 于 是 ， 为 了 得 

到 正 态 随机 变量 在 某 个 特定 区 间 内 的 概率 ， 我 们 必须 计算 在 该 区 间 中 正 态 曲线 下 的 面积 。 

对 于 标准 正 态 分 布 ， 正 态 曲 线 下 的 面积 已 计算 出 来 并 已 编制 成 可 用 于 计算 概率 的 数学 用 表 。 这 个 表 就 是 附录 
B 中 的 表 1， 分 别 是 z 值 小 于 或 等 于 均值 零 的 面积 〈 累 积 概率 ) ; z 值 大 于 或 等 于 均值 零 的 面积 (累积 概率 )。 

我 们 需要 计算 三 种 类 型 的 概率 : (1) 标准 正 态 随机 变量 z 小 于 或 等 于 某 个 给 定 值 的 概率 ; (2) 5 在 两 个 给 定 
值 之 间 的 概率 ; (3) z 大 于 或 等 于 某 个 给 定 值 的 概率 。 通 过 几 个 例子 ,我们 说 明 如 何 使 用 标准 正 态 分 布 累积 概率 
表 来 计算 这 三 种 类 型 的 概率 。 

首先 ， 说 明 如 何 计算 标准 正 态 随机 变量 z 小 于 或 等 于 1. 00 的 概率 P(z<1.00) “。 这 是 一 个 累积 概率 ， 等 于 
下 图 中 z=1. 00 左边 正 态 曲 线 下 的 面积 。 





”。 这 些 百分比 是 第 3.3 节 介绍 的 经 验 法 则 的 理论 


- ~ 站 


加 ”由 于 标准 正 楚 随机 变量 是 连续 的 ，P(z<s1.00) = P(z<1.00) 。 
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查 标准 正 态 概率 表 ， 与 :=1. 00 对 应 的 累积 概率 等 于 表 中 行 标记 为 1.0， 列 标记 为 0. 00 相交 处 的 数值 。 我 们 
首先 在 表 左 侧 第 一 列 中 找到 1. 0， 然 后 在 表 的 第 一 行 中 找到 0. 00。 通过 观察 表 体 ,我们 发 现 工 0 所 在 行 和 0.00 所 
在 列 相交 处 的 值 为 0.841 3; 于 是 ，P(z<1.00) =0. 841 3。 下面 是 用 于 演示 上 述 步 又 的 部 分 概率 表 。 


Zz 0.00 0.01 0.02 
0.9 0.8159 0.818 6 0.821 2 
1.0 0.843 8 0.846 1 
1.1 0.8643 下 0.866 5 0.868 6 
1.2 0.884 9 0.8869 0.888 8 

P(z<1.00) 


下 面 ,计算 z 在 区 间 [ -0.50, 1.25] 中 取 值 的 概率 P( -0.50<z<1.25)。 借 此 演示 如 何 计算 第 二 种 类 型 的 
概率 。 下 图 中 给 出 了 相应 的 面积 或 概率 。 






P(-0.50<z<1.25) 





P(z<-0.50) 有 





-0.50 0 让 


计算 这 个 概率 值 需要 经 过 三 个 步 又。 首先 ， 计 算 z=1.25 左边 正 态 曲 线 下 的 面积 。 然 后 ， 计 算 z= -0.50 左 
边 正 态 曲线 下 的 面积 。 最 后 ， 用 z=1. 25 左边 的 面积 减 去 z= -0.50 左边 的 面积 便 得 到 P( -0.50 大 z 生 1.25 ) 。 

为 了 得 到 z = 1. 25 左边 正 态 曲线 下 的 面积 ， 我 们 首先 在 标准 正 态 概率 表 中 找到 1. 2 所 在 行 ， 然 后 移 到 0. 05 所 
在 的 列 。 因 为 1.2 所 在 行 和 0. 05 所 在 列 相 交 处 的 数值 为 0.8944， 即 P(z<1.25) =0. 8944。 类 似 地 ， 查 表 得 -0.5 
所 在 行 和 0. 00 所 在 列 相 交 处 的 数 是 0.308 5， 故 P(z 近 -0.50) =0.308 5。 于 是 ，P( -0.50<z<1.25) =P(z< 
1.25) -P(z< -0.50) =0.8944 -0.3085=0.5859。 

再 举 另 外 一 个 例子 ， 说 明 如 何 计算 z 在 两 个 给 定 值 之 间 取 值 的 概率 。 人 大 们 感 兴趣 的 往往 是 如 何 计算 正 态 随机 
变量 的 取 值 在 均值 一 定 倍 数 的 标准 差 范 围 内 的 概率 。 假 定 ， 我们 想 要 计算 标准 正 态 随机 变量 在 均值 附近 一 个 标准 
差 范 围 内 取 值 的 概率 ， 即 P( -1.00<z<1.00)。 为 了 计算 这 个 概率 ,我们 需要 算出 在 -1.00~1.00 曲线 下 的 面 
积 。 在 前 面 我 们 已 经 得 出 了 P(z<1.00) =0. 841 3。 再 查 表 ， 得 到 z= - 1.00 左边 曲线 下 的 面积 为 0.1587， 即 
P(z< -1.00) =0.1587。 于 是 , P( -1.00<z<1.00) =P(z<1.00) - P(z< -1.00) =0. 8413 -0.1587=0.6826. 
下 图 是 这 个 概率 的 图 示 。 


P(-1.00<z< 1.00) 
=0.841 3-0.158 7=0.682 6 







P(z<—1.00) 
=0,1587 





-一 一 


-L000 TO0 

为 了 说 明 如 何 计算 第 三 种 类 型 的 概率 ， 下 面 假定 想 要 计算 z 值 至 少 为 1. 58 的 概率 ， 即 P(z 宇 1. 58)。 累 积 正 

态 表 中 z=1.5 所 在 行 和 0.08 所 在 列 交叉 处 的 值 为 0.9429， 于 是 P(z<1.58) =0.9429。 然 而 ， 由 于 正 态 曲线 下 总 
面积 等 于 1， 从 而 P(z 宇 1. 58) =1 -0.9429 =0.057 1。 下 图 是 对 这 种 情况 的 一 个 图 示 。 
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Pl(z>1.58) 
=1.000 0-0.942 9 
=0.057 1 


-2 一 】 0 +] +2 


在 前 面 的 例子 中 ， 我 们 演示 了 如 何 对 于 给 定 的 z 值 计算 概率 。 在 某 些 情况 下 ， 给 定 一 个 概率 ， 我们 感 兴趣 的 
问题 是 反 过 来 求 相 应 的 z 值 。 假定, 我们 想 要 求 某 个 z 值 ， 使 得 大 于 z 值 的 概率 为 0.10。 下 图 是 对 这 种 情况 的 一 
个 图 示 。 





这 个 z 值 是 多 少 ? 


这 一 问题 与 前 面 的 例子 正好 相反 。 前 面 ， 我 们 设 定 了 感 兴趣 的 = 值 ， 然 后 找 相应 的 概率 或 面积 。 本 例 中 ,我 
们 给 定 概率 或 面积 ， 要 求 找到 相应 的 : 值 。 为 此 ， 我们 以 不 同 的 方式 使 用 标准 正 态 概率 表 “。 

标准 正 态 概 率 表 给 出 了 一 个 特定 z 值 左边 正 态 曲线 下 的 面积 。 我 们 已 经 获得 的 信息 是 ， 曲 线 上 侧 尾 端的 面积 
是 0.10。 因此， 在 未 知 z 值 左边 正 态 曲 线 下 的 面积 是 0.9000。 查 概率 表 发 现 ，0. 899 7 是 最 接近 0. 900 0 的 累积 概 


率 值 。 用 于 得 出 这 一 结果 的 部 分 概率 表 如 下 。 


z 0.06 0.07 0.08 0.09 
1.0 0.855 4 0.8577 0.8599 0.862 1 
LI 0.8770 0.8790 0.881 0 0.883 0 
1.2 0.896 2 0.8980 0.901 5 
1.3 0.913 1 0.9147 40.9162 0.9177 
1.4 0.9279 0.929 2 ” 0.9306 0.9319 

; 表 中 最 接近 0. 9000 的 概率 


从 表 最 左边 一 列 和 最 上 一 行 读 z 值 ， 我 们 发 现 相 应 的 z 值 是 1.28。 这 样 ，z =1.28 左边 的 面积 近似 为 0. 900 0 
(实际 为 0.8997) S。 根据 问题 最 初 的 提 法 ，z 值 大 于 1. 28 的 概率 大 约 为 0. 10。 

这 些 例子 说 明 ， 标 准 正 态 概率 分 布 的 累积 概率 表 可 用 于 求 出 有 关 标 准 正 态 随机 变量 z 的 概率 。 可 以 回答 两 类 
问题 。 第 一 类 问题 是 ， 指 定 z 的 一 个 或 多 个 值 ， 要 求 我 们 利用 表 确 定 相 应 的 面积 或 概率 。 第 二 类 问题 是 ， 给 定 一 
个 面积 或 概率 ， 要 求 我 们 利用 概率 表 确 定 相 应 的 z 值 。 于 是 ， 我 们 需要 灵活 地 运用 标准 正 态 概 率 表 来 回答 感 兴趣 
的 概率 问题 。 在 大 多 数 情 况 下 ， 绘 制 标准 正 态 概率 分 布 图 并 用 恰当 的 阴影 表示 相应 的 面积 ， 将 有 助 于 使 问题 形象 


加 ”给 定 某 个 已 知 的 概率 值 ， 可 以 利用 标准 正 态 分 布 概率 表 反 查 出 相应 的 z 值 。 
昌 ” 我 们 可 以 在 表 体 中 使 用 插值 法 得 到 与 面积 0. 900 0 相对 应 的 最 接近 的 z 值 。 这 样 做 可 以 给 出 更 精确 (有 更 多 的 小 数位 ) 的 : 值 ，z = 
1.282。 然 而 ， 在 大 多 数 实际 情况 中 ， 通 过 简单 地 用 最 接近 概率 的 表 值 便 可 达到 是 够 的 精确 度 。 
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化 ， 从 而 帮助 得 出 正确 的 答案 。 


6. 2. 3 ”计算 正 态 概率 分 布 的 概率 


上 一 节 中 我 们 对 标准 正 态 分 布 进行 了 深入 的 研究 ， 因 为 所 有 正 态 分 布 的 概率 都 可 利用 标准 正 态 分 布 来 计算 。 
也 就 是 说 ， 对 于 具有 任意 均值 和 标准 差 o 的 正 态 分 布 ， 我 们 在 回答 有 关 的 概率 问题 前 ， 首 先 应 将 其 转换 成 标准 
正 态 分 布 ， 然 后 再 使 用 标准 正 态 概率 表 和 恰当 的 z 值 来 计算 所 需要 的 概率 。 将 具有 均值 人 和 标准 差 o 的 正 态 随 机 
变量 * 转换 为 标准 正 态 随机 变量 z 的 公式 “如 下 。 





当 w 的 值 等 于 其 纪 信 ， 时 有 z= (由 -由 )Me =0。 可 见 ， 当 x 等 于 其 约 值 5 村， 对 应 的 z 值 等 于 0。 现 在 假定 x 
大 于 其 均值 一 个 标准 差 ， 即 x = 凡 十 IIo 根据 式 (6-3 ) ， 可 见 与 之 相应 的 z 值 是 > 三 | (g +0) -kl/o 和 
因此 ，x 比 均值 大 一 个 标准 差 等 价 于 z=1。 换 而 言 之 ， 如 果 用 标准 差 来 度量 正 态 随机 变量 * 与 其 均值 j 之 差 ， 则 z 
是 以 x 的 标准 差 为 度量 单位 的 正 态 随机 变量 x 与 其 均值 及 之 间 的 距离 。 

下 面 以 =10 和 ez =2 的 正 态 分 布 为 例 ， 说 明 如 何 计算 正 态 分 布 的 概率 。 若 想 要 求 随机 变量 * 在 10 ~ 14 取 值 的 概率 ， 
则 根据 式 (6-3) 可 得 : 当 x=10 时 ,z = (x =p)/o = (10=10)X2 =0; 当 x=14 时 ,z = (14-10)/2 =4/2 = 2 。 于 是 ， 
x 在 10~14 取 值 的 概率 等 价 于 标准 正 态 分 布 随机 变量 z 在 0~2 取 值 的 概率 问题 。 换 而 言 之 ， 我 们 想 要 计算 的 概率 
是 随机 变量 x 取 值 位 于 其 均值 和 超过 均值 两 个 标准 差 的 值 之 间 的 概率 。 由 z =2. 00 和 标准 正 态 概率 表 ， 可 得 概率 
P(z<2.00) =0.9772。 由 于 P(z<0) =0.5000， 我们 计算 出 P(0<z<2.00) =P(z<2.00) -P(z<0) =0.9772 - 
0.5000=0.4772., 因此 ， x 在 10~14 取 值 的 概率 是 0. 477 2。 


6. 2. 4 ”Grear 公司 轮胎 的 问题 


”现在 我 们 转向 研究 正 态 概率 分 布 的 上 应用。 假定 Grear 公司 刚刚 开发 了 _ 种 新 的 钢 带 子午 线 轮胎 将 通过 全 美 
连锁 折扣 商店 出 售 。 由 于 这 种 轮胎 是 一 种 新 产品 ，Grear 公司 经 理 认 为 ， 提 供 轮 胎 可 行驶 里 程 的 质保 是 影响 产品 
被 接受 的 一 个 重要 因素 。 在 最 终 落 实 轮胎 行驶 里 程 保证 政策 之 前 ，Grear 公司 经 理 需 要 有 关 轮 胎 的 行驶 里 程 x 的 概 
率 信息 。 

根据 对 轮胎 的 实际 道路 测试 ，Grear 公司 的 工程 小 组 估计 轮胎 
可 行驶 里 程 的 均值 j=36500 英里 ,标准 差 o =5 000。 另 外 ， 收 集 
的 数据 表明 正 态 分 布 是 一 个 合理 的 假设 。 行 驶 里 程 超过 40 000 英 
里 的 轮胎 所 占 的 百分比 有 多 大 ? 换 名 话说， 轮胎 行驶 里 程 * 超 过 
40 000 英里 的 概率 是 多 少 ? 这 一 问题 可 以 通过 计算 图 6-6 中 深 色 阴 


P(x<40 000) 





影 区 域 的 面积 来 回答 。 

当 x=40000 时 ， 有 : 

现在 ， 观 察 图 6-6 的 底部 ， 可 见 与 Grear 轮胎 公司 正 态 分 布 值 。 了 
x=40 000 相对 应 的 标准 正 态 分 布 值 * = 0.70。 利 用 标准 正 态 概率 ”注意 : :0 与 -kw=36300 ”注意 : z=0.70 与 r=40 000 
表 , 在 z=0.70 左边 正 态 曲 线 下 的 面积 为 0.758 0。 因 此 ，z 大 于 相对 应 相对 应 


0. 70 的 概率 为 1 -0.7580=0.2420， 从 而 x 超过 40 000 的 概率 为 6-6 ”Grear 公司 轮胎 行驶 里 程 的 分 布 


日 ”标准 正 态 随 机 变量 的 公式 类 似 于 我 们 在 第 3 章 介 绍 的 计算 数据 集 的 z 得 分 的 公式 。 
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0. 2420。 我 们 可 以 得 出 结论 ， 有 大 约 24. 2% 的 轮胎 其 行驶 里 程 将 超过 40 000 英里 。 
下 面 ， 假设 Grear 公司 正在 考虑 实施 一 项 质量 保证 : 如 果 轮 胎 的 行驶 里 程 没有 达到 质量 保证 规定 的 里 程 ， 公 
司 将 以 折扣 价 提供 更 换 轮胎 的 服务 。 如 果 Grear 公司 希望 达到 折扣 质量 保证 条 件 的 轮胎 不 要 超过 总 数 的 10% ， 则 
应 设 定 的 质保 里 程 为 多 少 英 里 ? 图 6-7 是 关于 该 问题 的 一 个 图 示 。 
根据 图 6-7， 在 质保 里 程 值 (未知 ) 左边 正 态 曲线 下 的 面积 
必须 为 0.10。 所 以 ， 我 们 必须 找到 一 个 z 值 使 得 在 它 左边 标准 正 
态 曲线 下 的 面积 为 0 10。 利 用 标准 正 态 概率 表 ， 我 们 看 到 2 = fa 
-1.28 时 ， 下 尾 的 面积 为 0:10。 因 此 , z= -1.28 是 与 Grear 轮胎 ”10% 的 轮胎 符合 /RE 
正 态 分 布 所 希望 的 质保 里 程 相对 应 的 标准 正 态 随机 变量 的 值 。 为 。 岳 全 《和 的 条 人 /有 
了 求 出 与 z= -1.28 相 对 应 的 x 和 值 ， 我们 有 t 
z = = 一 1.28 






质保 里 程 =? 1=36 500 


-=- 1280 
X=1.280° 图 6-7 ”Grear 公司 的 质保 折扣 
因为 义 =36 500 和 ez =5000， 于 是 得 
x = 36500 — 1.28 x5000 = 30 100 
因此 ， 若 设 定 质量 保证 为 30 100 英里 ， 则 大 约 有 10% 的 轮胎 符合 质量 保证 条 件 的 要 求人 。 根 据 这 一 信息 ， 也 
许 公司 会 把 轮胎 质保 里 程 设 定 为 30 000 英里 。 : 
我 们 再 次 看 到 了 概率 分 布 在 提供 决策 所 需 信息 方面 所 起 的 重要 作用 。 妈 一 旦 对 某 一 特定 应 用 问题 确定 了 其 概 
率 分 布 ， 就 可 以 取得 有 关 问 题 的 概率 信息 。 概 率 并 不 直接 给 出 决策 建议 , 但 它 能 提供 帮助 决策 者 更 好 地 了 解 与 问 
题 相 关 的 风险 和 不 确定 性 的 信息 。 最 终 ， 这 些 信息 可 以 辅助 决策 者 作出 正确 的 决策 。 


方法 b. 0 和 z 间 的 面积 是 0.4750。 





8. 利用 图 6-4 ， 绘 制 均值 凡 = 100 和 标准 差 rr =10 的 随 c. Z 左 侧 的 面积 是 0.729 1。 
机 变量 x 的 正 态 西 线 。 在 横 轴 上 标明 值 70，80，90， d. z 右 侧 的 面积 是 0.1314。 
100，110，120 和 130。 e. z 左 侧 的 面积 是 0.670 0。 
10. 绘制 标准 正 态 分 布 图 ， 并 且 在 横 轴 上 标明 数值 -3， f. z 右 侧 的 面积 是 0.3300。 
_2， -1 0 1 2 和 3 然后 利用 朋 时 日 中 标准 ”16 巴 类 是 一 个 标准 正 态 随 机 变量 由 对 下 面 各 种 情况 
正 态 分 布 概率 表 计 算 下 列 概率 。 求 z 值 。 
a. P(z<]1.5) b, P(z<1) a. Zz 碳 侧 的 面积 是 0.01。 
0 WE d. P(0 <z<2.5) b. z 右 侧 的 面积 是 0.025。 
12. 已 知 z 是 一 个 标准 正 态 随机 变量 ,计算 下 列 概 率 。 c. Zz 右 侧 的 面积 是 0.05。 
a. P(0<z<0. 83) b. P( -1.57<z<0) d. z 右 侧 的 面积 是 0.10。 
c. P(z>0.44) d. P(z=0. 23) 应 用 
e. P(z<1,20) f. P(z -0.71) 六 18. 在 2009 ~2011] 年 这 3 年 中 ， 国 内 大 盘 股 基金 的 平 
14. 已 知 z 是 一 个 标准 正 态 随机 变量 ， 对 下 面 各 种 情况 均 收益 率 为 14.4% (〈《 美 国 个 人 投资 者 协会 日 报 》， 
求 z 值 2012 年 2 月 ) 。 假 定 基金 三 年 的 收益 率 服从 正 态 分 
a. z 左 侧 的 面积 有 是 0. 975 0。 布 ， 称 准 差 是 小 4 听 。 


日 ”可见 ， 质 量 保证 里 程 x 位 于 均值 下 方 距离 均值 1. 28 个 标准 差 的 位 置 。 
蝗 ” 符 合 质 保 条 件 的 实际 百分比 为 9. 68% 。 
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a. 一 只 大 盘 国 内 股票 基金 ， 它 三 年 中 的 收益 率 至 
少 达 到 20%' 的 概率 有 多 大 ? 

b. 一 只 大 鼻 国 内 股票 基金 ， 它 三 年 中 的 收益 率 不 
高 于 10% 的 概率 有 多 大 ? 

c. 股票 收益 率 的 排名 要 想 进入 前 10% ， 收益 率 至 
少 要 达到 多 高 ? 


24. 


个 小 时 的 概率 是 多 少 ? 

b. 车 一 个 家 庭 每 天 收看 电视 节目 的 时 间 排 名 处 于 
前 3@ 的 位 置 ， 则 每 天 至 少 收看 多 少 个 小 时 ? 

c. 一 个 家 庭 每 天 收看 电视 节目 的 时 间 多 于 3 个 小 
时 的 概率 是 多 少 ? 

在 纽约 证 券 交 易 所 的 每 个 交易 日 中 ， 最 初 的 半 个 小 时 


20. 美国 汽油 平均 价格 为 3.73 美元 /加 仑 ， 俄 罗斯 汽油 (清晨 ) 和 最 后 的 半 个 小 时 (午后 ) 的 交易 量 最 大 。 
平均 价格 为 3140 美元 /加 公 (考博 商业 周刊 》， 下 面 是 1 月 和 2 月 共 13 天 中 ,清晨 的 交易 量 (单位 : 
2012 年 3 月 5 日 至 11 日 )。 假 设 每 加 仑 汽油 的 价格 100 万 股 ) 数据 〔(《 巴 伦 周 刊 》，2006 年 1 月 23 日 、 
服从 正 态 分 布 ， 并 且 上 述 均值 是 两 个 国家 汽油 价格 2006 年 2 月 13 日 和 2006 年 2 月 27 日 )。 

的 总 体 的 值 ， 美 国 汽油 价格 的 标准 差 为 0.25 美元 ， 过 芝 二 二 
俄罗斯 汽油 价格 的 标准 差 为 0. 20 美元 。 eh Es a ee 
a. 随机 选取 美国 的 一 处 加 油 站 ,汽油 价格 低 于 [74 Hl 2 

3. 50 美元 /加 仑 的 概率 是 多 少 ? 
b. 俄罗斯 的 加 油 站 中 ,汽油 价格 低 于 3.50 美元 / 交易 量 近似 服 从 正 态 概率 分 布 。 

加 仓 的 加 油 站 占 多 大 的 百分比 ? a 计算 均值 和 标准 差 ， 用 来 估计 总 体 的 均值 和 标 
c. 随机 选取 俄罗斯 的 一 处 加 油 站 ， 求 其 汽油 价格 准 差 。 

高 于 美国 汽油 价格 的 均值 的 概率 。 b. 随机 选取 一 和 天， 清晨 交 易 量 少 于 1.8 和 亿 股 的 概 

22. 据 尼 尔 森 公司 报道 ， 家 庭 每 天 用 于 收看 电视 节目 的 平 率 消 多 类 7 


均 时 间 青 创新 识 ， 达 到 8.35 个 小 时 (《 今 日 美国 》， 
2009 年 11 月 11 日 )。 假 设 每 个 家 庭 收 着 电视 节目 的 时 
闻 服 从 正 态 概率 分 布 ， 标 准 差 为 2.5 小 时 。 试 问 : 

a 一 个 家 庭 用 于 收看 电视 节目 的 时 间 介 于 5 ~ 10 


6.3 二 项 概率 的 正 态 近似 
在 第 5. 5 节 我 们 介绍 了 离散 型 的 三 项 概率 分 布 。 二 项 试验 由 一 系列 个 相同 的 独立 试验 组 成 ， 每 个 试验 有 两 
种 可 能 结果 : 成 功 或 失败 。 所 有 的 试验 中 成 功 的 概率 都 是 相同 的 ， 用 p 来 表示 。 二 项 分 布 中 随机 变量 是 nn 次 试验 
中 成 功 的 次 数 ， 在 n 次 试验 中 有 x 次 成 功 的 概率 是 我 们 关心 的 概率 问题 。 

当 试 验 次 数 很 大 时 ， 用 手工 计算 或 计算 器 求解 二 项 概率 函数 都 是 很 困难 的 。 在 np 宇 5" 和 n(1 -p) 5 情况 下 ， 
正 态 分 布 是 对 二 项 概率 分 布 的 一 个 简便 易 行 的 近似 。 当 使 用 正 态 分 布 近 似 二 项 分 布 时 ， 正 态 曲 线 中 取 jy=np 和 


{二 


vnp(1 ~ 站)'o 


下 面 ， 我 们 举例 说 明 二 项 分 布 的 正 态 近 似 。 假 定 历史 经 验 表 


c. 随机 选取 一 天 ， 清晨 交易 量 超过 2.3 亿 股 的 概 
率 有 多 大 ? 

d， 若 某 天 清晨 的 交易 量 跻身 最 繁忙 的 前 5% 交易 
目 ， 求 交易 量 是 多 少 ? 


上 明 ， 某 公司 发 票 出 错 的 概率 为 10% 。 现 选取 100 张 发 票 组 成 一 个 样 
本 ， 我 们 想 计 算 恰 好 有 12 张 发 票 有 钳 的 概率 ， 即 想 计 算 100 次 试 
验 中 恰好 有 12 次 成 功 的 二 项 概率 。 在 应 用 二 项 分 布 的 正 态 近似 时 ， 
邻 j=np=100 x0.1=10 和 oa = vnp(l1-p) = V100x0.1x0.9 = 
3。 =10 和 og =3 的 正 态 分 布 如 图 6-8 所 示 。 

对 连续 型 概率 分 布 ， 概 率 是 通过 计算 概率 密度 函数 下 方 的 面积 
得 出 的 。 因 此 ， 随 机 变量 取 任 意 单个 值 的 概率 为 0。 为 了 对 恰好 有 
12 次 成 功 的 二 项 概率 进行 近似 ， 我们 必须 计算 11.5 和 12. 5 之 间 正 
态 曲 线 下 的 面积 。 其 中 11.5 和 12.5 是 将 12 加 减 0.5 得 到 的 ， 我们 
称 0. 5 为 连续 性 校正 因子 (continuity correction factor) 。 这 是 由 于 我 






(11.5<xS12.5) 


图 6-8 一 个 二 项 概率 分 布 的 正 态 近 似 (n=100 
和 p=0.10， 有 了 2 次 出 错 的 概率 ) 
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们 在 用 一 个 连续 分 布 来 近似 一 个 离散 人 分布。 从而， 离散 型 二 项 分 布 P(x =12) 可 用 连续 型 正 态 分 布 P(11.5%< 
12.5) 过 近似 。 
转换 成 标准 正 态 分 布 后 计算 P(11.5<x<12.5),， 有 


当 了 


和 
当 w = 11.5 团 肝 = 委 3 和 0.50 


利用 标准 正 态 概率 表 ， 可 得 曲线 下 方 12. 5 左 侧 区 域 的 面积 为 0.7967 ( 见 图 6-8)。 类 似 地 ， 曲 线 下 方 11.5 左 侧 区 

域 的 面积 为 0. 6915。 这 样 ，11.5 与 12.5 之 间 的 面积 是 0. 7967 - De A 

0. 6915 =0. 105 2。 利 用 正 态 近似 可 得 ，100 次 试验 中 恰好 有 12 orl3orfewereriors ps 

次 成 功 的 概率 等 于 0. 105 2。 is0.879 0 人 
再 比如 ， 在 由 100 张 发 票 组 成 的 样本 中 ， 假 定 我 们 想 计算 有 

不 多 于 13 张 发 票 出 错 的 概率 。 这 一 概率 近似 等 于 图 6-9 中 正 态 曲 

线 下 的 面积 。 注 意 : 利用 连续 性 校正 因子 ， 根 据 值 13.5 计算 所 

求 的 概率 。 与 4= 13. 5 相对 应 的 = 值 是 ， 


a 13:5 一 10.0 1 17 rr | 







KE 冲 上 10 13.5 
标准 正 态 概率 表 显 示 ， 标 准 正 态 曲线 下 z =1.17 左 侧 区 域 的 面积 是 ”图 6-9 二 项 概率 分 布 的 正 态 近 似 (n=100 和 p= 
0. 879 0。 出 错 次 数 不 多 于 13 次 的 概率 约 等 于 正 态 曲 线 下 (图 6-9 中 0. 10， 出 错 次 数 不 多 于 13 次 的 概率 ) 


明 影 部 分 ) 的 面积 。 





方法 b. 吸烟 人 数 少 于 40 人 的 概率 是 多 少 ? 
妇 26， 一 个 二 项 概率 分 布 ， 其 中 p=0.20， n=100。 试问 : c. 吸烟 人 数 在 55 ~60 人 的 概率 是 多 少 ? 

a 均值 和 标准 差 各 是 多 少 ? d. 吸烟 人 数 不 少 于 70 人 的 概率 是 多 少 ? 

b 这 种 情况 下 ， 二 项 概率 可 以 用 正直 概率 分 布 来 。 30 影 苞 和 电脑 游戏 非常 吝 行 ,超过 70% 的 家 庭 玩 这 
A 些 游戏 。 在 玩 影 克 和 电脑 游戏 的 人 中 ， 年 龄 在 18 
峰 送 天 24 闫 成 功 的 概率 是 多 少 ? 岁 及 以 下 的 人 占 18%; 年 龄 在 18 ~59 岁 的 人 占 
i 53% ; 年 龄 在 59 岁 以 上 的 人 占 29% (《 华 尔 街 日 


报 》，2012 年 3 月 6 日 )。 
. 成 功 次 圭 并 , 7 
e. 成 功 次 数 不 多 于 的 概率 是 多 乡 a 由 800 名 玩 游戏 的 人 组 成 一 个 样本 ， 你 预期 多 


H 


应 用 少 人 的 年 龄 在 118 岁 以 下 ? 
妆 28， 虽然 研究 持续 表明 ， 吸 烟 会 导致 严重 的 健康 问题 ， b. 由 600 名 玩 游 戏 的 人 组 成 一 个 样本 ， 求 年 龄 在 
但 是 美国 仍 有 20% 的 成 年 人 吸烟 。 在 由 250 名 碱 18 岁 以 下 的 人 数 少 于 100 人 的 概率 。 
年 人 组 成 的 小 组 中 。 c. 由 800 名 玩 游 戏 的 大 组 成 一 林 样 本 ， 求 年 路 在 
a 成 年 人 中 吸烟 人 数 的 期 望 值 是 多 少 ? 18 ~59 岁 的 人 数 达 到 或 超过 200 人 的 概率 。 
6.4 指数 概率 分 布 


指数 概率 分 布 (exponential probability distribution probability distribution) 可 用 于 描述 诸如 到 达 某 洗车 处 的 两 辆 
车 的 时 间 间 隔 、 装 载 一 辆 卡车 所 需 时 间 、 高 速 公路 上 两 起 重大 事故 发 生地 之 间 的 距离 等 随机 变量 。“ 指数 概率 密度 


日 ”在 排队 论 中 ， 指 数 分 布 常用 于 描述 服务 时 间 。 
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作为 指数 概率 分 布 的 一 个 例子 ， 假 定 在 Schips 码头 装载 一 辆 卡车 。 jt 
所 需 时 间 * 服从 指数 分 布 。 如 果 装 车 时 间 的 均值 或 平均 所 需 时 间 是 15 00 
分 钟 (4 =15)， 则 x 的 概率 密度 函数 是 


f(s) = Ise 
图 6-10 是 站 要 市 入 丰 汪 数 图 6 0:03 








a 菜 一 区 间 中 相应 曲线 下 的 面积 是 随 "0 6 。 8 
i ny ie _。 图 6-10 SCHiIPS 装载 码头 例子 的 指数 分 布 
到 = -6 的 直线 下 区 域 的 面积。 类 似 地 ， 装载 一 辆 卡车 花费 18 分 钟 或 更 少时 间 的 概率 P(x<18) 等 于 从 x=0 到 x 
=18 的 曲线 下 区 域 的 面积 。 注意 ， 装载 一 辆 卡车 花费 在 6 分 钟 到 18 分 钟 之 间 的 概率 P(L6<x* 和 18) 等 于 从 x=6 到 
x=18 的 曲线 下 的 面积 。 

为 了 计算 诸如 刚才 描述 的 这 些 指数 分 布 ， 我 们 使 用 下 列 公式 。 它 给 出 指数 随机 变量 取 小 于 或 等 于 某 一 特定 什 












在 Schips 装载 码头 的 例子 中 ，x = 装载 时 间 (以 分 钟 计 ) ,p=15 分 钟 ， 根 据 式 (6-5) 有 
pl) = Le a 
因此 ， 装载 一 辆 卡车 所 用 时 间 不 多 于 6 分 钟 的 概率 是 
四 民 人 = 0. 3297 
利用 式 (6.5)， 我 们 计算 出 装载 一 辆 卡车 所 用 时 间 不 多 于 18 分 钟 的 概率 是 
P(w<18) =1 -=-e 5 =0.6988 
因此 ， 装载 _ 辆 卡车 所 用 时 间 在 6 - 18 分 钟 的 概率 等 于 0. 698 8 -0.3297 =0. 369 1。 类 似 地 ， 可 以 计算 所 用 时 
间 在 任意 其 他 区 间 的 概率 。 ， 
在 上 面 的 例子 中 ， 装 载 一 辆 卡车 平均 需要 的 时 间 为 =15 分 钟 。 指 数 分 布 的 性 质 之 一 是 ,分 布 的 均值 和 标准 
a i AAA 15 分 钟 ， 方 差 为 0 =15? =225。 





在 第 5.6 节 我 们 介绍 了 离散 概率 分 布 一 涌 松 分 布 。 在 研究 一 个 事件 在 一 特定 时 间 段 或 空间 中 发 夺 次 数 时 ， 
泊 松 分 布 非常 有 用 。 泊 松 分 布 的 概率 函数 如 下 : 


WR) se 
式 中 ,为 在 某 一 特定 区 间 发 生 次 数 的 数学 期 望 或 均值 。 连 续 型 指数 概率 分 布 与 离散 型 泊 松 分 布 是 相互 联系 的 ， 
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泊 松 分 布 描述 了 每 一 区 间 中 事件 发 生 的 次 数 ， 指 数 分 布 描述 了 事件 发 生 的 时 间 间 隔 长 度 。” 
为 了 举例 说 明 这 种 关系 ， 假 定 在 一 小 时 当中 到 达 某 一 洗车 处 的 汽车 数 可 以 用 泊 松 概率 分 布 描述 ， 其 均值 为 每 
小 时 10 辆 。 泊 松 概率 函数 给 出 了 每 小 时 有 %* 辆 汽车 到 达 的 概率 
l0*e™ 
(x) = 


%! 
由 于 车 辆 到 达 的 平均 数 是 每 小 时 10 辆 ， 则 两 车 到 达 的 时 间 间 隔 的 均值 为 


bn 
而 打车 1 站 而 区 二 


于 是 ， 描 述 两 车 到 达 的 时 间 间 隔 的 对 应 分 布 是 指数 分 布 ， 其 均值 .=0.1 小 时 / 辆 ， 从 而 指数 概率 密度 函数 为 
RCW 十 ie! = l0e™™ 








正如 我 们 在 图 6-10 中 所 看 到 的 那样 ， 指 数 分 布 是 右 偏 的 。 确 实 ， 指 数 分 布 的 偏 度 为 2。 指 数 分 布 让 我 们 更 直 
观 地 看 到 了 和 偏 态 分 布 的 特点 。 









人 i 


方法 36. Comcast 是 美国 最 大 的 有 线 电视 企业 ， 第 二 大 互联 
$3 考虑 下 列 指数 概率 密度 函数 网 服务 供应 商 、 第 四 大 电信 服务 供应 商 。 它 虽 然 以 
优质 而 可 靠 的 服务 冰 名 ， 但 是 仍 可 能 定期 会 发 生 


1 -an 
ee 0 不 可 预期 的 服务 中 断 。2009 年 1 月 14 日 ， 佛 罗 里 


a. 计算 P(x<6)。 b. 计算 P(x<4)。 达州 南部 的 Comcast 用 户 遭 遇 了 服务 中 断 。 当 用 户 
c. 计算 P(x 宇 6 )。 d. 计算 P(4 一 x<6) 。 给 Comcast 办 公 室 打 电 话 时 ， 留 言 信 息 告 诉 他 们 公 
应 用 司 已 经 知道 发 生 了 服务 中 断 故障 ， 预 计 2 个 小 时 内 


34. Droid Razr Maxx 的 摩托 罗 粒 的 一 款 手 机 ， 当主 要 用 能 恢复 服务 。 假设 平均 修理 时 间 为 2 个 小 时 ， 并 且 


于 通话 时 充电 电池 可 使 用 20 个 小 时 ( 《华尔街 日 ee 

报 》 2012 年 3 月 7 日 )， 当 主要 通过 蜂 宽 数据 上 a 有线 服 务 在 1 ea 

网 时 充电 电池 使 用 时 间 下 降 到 7 个 小 时 。 假 定 上 述 Ne RE ? 

两 种 情形 下 ， 电 池 的 使 用 时 间 都 服从 指数 分 布 。 c. 一 名 用 户 在 下 午 1 点 钟 给 Comeast 的 办 公 室 打 电 

a 当主 要 用 于 通话 时 ， 求 Droid Razr Maxx 手机 电 话 ， 和 了 下 点 仍 未 恢复 的 
池 使 用 时 间 的 概率 密度 函数 。 OS 

b. 随机 选取 一 部 Droid Razr Maxx 手机 ， 当 主要 用 38. 工作 时 被 干扰 是 否 会 降低 你 的 工作 效率 ?根据 加 
于 通话 时 求 电 池 使 用 时 间 不 长 于 15 个 小 时 的 州 大 学 欧文 分 校 的 研究 ， 商 务 人 士 被 干扰 的 频率 
i 大 约 是 每 小 时 5.5 次 (《 财 富 》，2006 年 3 月 20 


c 随机 选取 一 部 Droid Razr Maxx 手机 ， 当 主要 用 日 )。 假设 干扰 次 数 服从 泊 松 分 布 。 
于 通话 时 求 电池 使 用 时 间 超 过 20 个 小 时 的 a 求 两 次 干扰 之 间 的 时 间 间 隔 的 概率 分 布 。 
概 沸 b. 在 15 分 钟 内 ， 某 商务 人 士 不 被 干扰 的 概率 是 


d 随机 选取 一 部 Droid Razr Maxx 手机 ， 当 主要 用 Et 
于 上 网 时 求 电池 使 用 时 间 不 长 于 5 个 小 时 的 pt 
» 


概率 。 


名 ”如果 到 达 的 数目 服从 泊 松 分 布 ， 那 么 两 次 到 达 之 间 的 等 竺 时间 服从 指数 分 布 。 
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本 章 把 对 概率 分 布 的 讨论 推广 到 连续 型 随机 变量 
的 情形 。 离 散 型 和 和 连续 型 概率 分 布 在 概念 上 的 主要 区 
别 在 于 计算 概率 的 方法 不 同 。 对 离散 型 分 布 ， 概率 函 
数 .所 xz) 给 出 随机 变量 x 取 各 种 值 的 概率 。 对 连续 型 分 
布 ， 概 率 密 度 函 数 ,F(x) 没 有 直接 给 出 概率 值 ， 概 率 密 


度 函 数 .用 x) 图 或 者 曲线 下 的 面积 本 是 概率 。 由 于 曲线 





关键 术语 3 
AU , 


probability density function 概率 密度 函数 ”用 于 计算 


连续 型 随机 变量 概率 的 函数 。 用 某 一 区 间 中 概率 密 
度 函 数 曲线 下 的 面积 来 表示 概率 。 
uniform probability distribution ”均匀 概率 分 布 ”一 种 
连续 型 概率 分 布 ， 随 机 变量 在 等 长 度 的 区 间 上 取 什 
的 概率 相同 。 
normal probability distribution ” 正 态 概率 分 布 ”一 种 连 
续 型 概率 分 布 ， 其 概率 密度 函数 呈 钟 形 ， 由 均值 几 
和 标准 差 go 确定 。 






= 
= 和 


均匀 概率 密度 函数 





] 
f(x) 一 5 一 a” 
0 “， 其 他 
正 态 概率 密度 函数 


0 <xeb 


] =(x-p) a0 





一 6-2 
f(x) i (6-2) 


标准 正 态 随机 变量 的 变换 
补 苑 练习 
40. 据 美 国 大 学 生体 育 协 会 估计 ， 正式 公办 大 学 的 全 
额 体育 奖学金 为 每 年 19000 美元 (《 和 华尔街 日 报 》， 
2012 年 3 月 12 日 )。 假设 奖学金 服从 标准 差 为 
2 100 美 元 的 正 态 分 布 。 
a. 若 奖 学 金 金 额 的 排名 位 于 后 10% ， 求 奖学金 的 
金额 是 多 少 ? 
b. 整个 奖学金 中 。 数 额 不 低 于 22 000 美元 的 奖 学 
金 占 多 大 百分比 ? 
c. 车 获得 排名 前 3% 的 奖学金 ， 求 奖学金 的 金额 是 
多 少 ? 
42. 2012 年 年 初 ， 经 济 困 难 开 始 对 法 国 福利 体系 的 额 





下 单个 点 的 面积 是 0 


应 用 。 












se i -9 
， 所 以 连续 型 随机 变量 取 某 一 特定 
值 的 概率 是 0。 

我 们 详细 介绍 了 三 种 连续 型 概率 分 布 一 一 均匀 分 
布 、 正 态 分 布 和 指数 分 布 。 其 中 ， 正 态 分 布 广泛 应 用 
于 统计 推断 ， 并 且 在 本 书 的 其 余 内 容 中 将 有 广泛 的 


二 本 
Se, 


standard normal probability distribution “标准 正 态 概率 
分 布 ”均值 为 0 并且 标准 差 为 1 的 正 态 分 布 。 

continuity correction factor 连续 性 修正 因子 当 用 连 
续 型 正 态 概率 分 布 来 近似 离散 型 三 项 玻 率 从 布 时 ， 
从 x 中 加 上 或 减 去 的 值 0.5。 

exponential probability distribution “指数 概率 分 布 一 
种 连续 型 概率 分 布 ， 用 于 计算 完成 一 项 任务 所 需 时 
间 的 概率 。 











指数 概率 密度 函数 

pe ri 必 汪 间 (6-4) 
指数 分 布 : 累积 概率 

人 -了 (6-5) 






| 

度 产 生 影响 。 每 天 去 巴黎 一 家 上 典当 行 抵押 物品 的 
人 数 增加 到 658 人， 典当 行 抵押 物品 的 人 数 可 以 作 
为 衡量 困难 程度 的 指标 (《 芯 博 商业 周刊 》， 
2012. 年 3. 月 S 日 ~3 月 11 日 )。 假定 2012 年 每 天 去 
典当 行 抵 押 物 品 的 人 数 服 从 均值 为 .658 的 正 态 
分 布 。 

a.- 假 定 在 3% 的 日 子 里 ， 抵押 物品 的 人 数 不 多 于 
610。 求 每 天 去 典当 行 抵押 物品 人 数 的 标准 差 。 
b. 菜 天 当中 ， 去 哄 当 行 抵押 物品 人 数 在 .600 ~700 

人 的 概率 是 多 少 ? 
c, 在 典当 行 最 为 繁忙 的 3 饭 的 日 子 里 ， 去 典当 行 抵 
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押 物 品 人 数 达到 多 少 ? 0. 49 的 概率 取胜 。 玩 家 知道 每 小 时 大 约 赌 60 手 。 
44，Ward Doering 自动 售 货 公 司 正 考虑 提供 一 项 特殊 服 假定 他 以 每 手 50 美元 赌资 玩 4 小 时 。 
务 合同 ， 以 负担 服务 工作 所 要 求 的 设备 租赁 成 本 。 a 玩家 的 期 望 支付 额 是 多 少 ? 
根据 经 验 ， 公 司 经 理 估计 年 服务 成 本 近似 服从 正 b, 玩家 输 掉 1 000 美元 或 更 多 的 概率 是 多 少 ? 
态 分 布 ， 其 均值 为 150 美元 ; 标准 差 为 25 美元 。 c. 玩家 赢 的 概率 是 多 少 9 
a， 如 果 公 司 以 每 年 200 美元 的 价格 向 客户 提供 这 d. 假设 玩家 有 1 500 美元 ， 则 他 输 看 所 有 的 钱 概率 
种 服务 ， 则 一 名 客户 服务 成 本 超过 合同 价格 200 是 多 少 ? 
美元 的 概率 是 多 少 ? 52, 平均 每 分 钟 大 约 有 7 个 人 登录 北美 洲 含 早餐 服务 旅 
b,， Ward 公司 服务 合同 的 期 望 利润 是 多 少 ? 人 馆 的 网 站 (Time，2001 年 9 月 )。 假 定 每 分 钟 该 网 
46. 假设 某 大 学 入 学 考试 的 考试 成 绩 服从 正 态 分 布 ， 站 的 浏览 人 数 服从 泊 松 概率 分 布 。 
其 均值 为 450， 标 准 差 为 100。 a 该 网 站 相 邻 两 次 访问 之 间 的 平均 时 间 间 隔 是 
a 考试 分 数 在 400~500 的 人 数 占 多 大 百分比 ? 多 少 ? 
b, 假定 某 人 得 分 630， 比 此 人 考试 分 数 高 的 考生 的 b. 给 出 该 网 站 相 邻 两 次 访问 之 间 的 时 间 间 隔 所 服 
百分比 有 多 大 ? 比 此 人 考试 分 数 低 的 考生 的 百 从 的 指数 概率 密度 函数 。 
分 比 有 多 大? c. 在 1 分钟 内 无 人 访问 该 网 站 的 概率 是 多 少 ? 
c. 如 果 某 大 学 不 招收 分 数 在 480 分 以 下 的 学 生 ， d. 在 12 秒 内 无 人 访问 该 网 站 的 概率 是 多 少 ? 
参加 考试 的 学 生 中 被 该 大 学 接受 的 百分比 是 54; 某 保 险 索 赔 办 公 室 称 ， 两 次 电话 呼叫 的 时 间 间 隔 
多 少 ? ( 以 分 钟 计 ) 服从 如 下 指数 概率 分 布 ; 
48. 一 种 机 器 向 容器 填充 某 种 产品 。 根 据 过 去 的 数据 Ms) = 0 We ,nw0 
已 知 填 充 量 的 标准 差 是 0.6 盎司 。 如 果 容 器 中 只 有 a. 两 次 电话 之 间 的 平均 等 待 时 间 是 多 少 ? 
2% 的 容量 低 于 18 玲 司 ， 这 种 机 器 填充 量 的 均值 是 b， 两 次 电话 之 间 的 时 间 间 隔 不 多 于 30 秒 的 概率 是 
多 少 ? 即 应 该 等 于 多 少 ? 假设 填充 量 服 从 正 态 多 少 ? 
分 布 。 c. 两 次 电话 之 间 的 时 间 间 隔 不 多 于 1 分 钟 的 概率 
50. 一 名 在 拉 斯 维 加 斯 赌场 的 黑 杰 克 玩 家 得 知 ， 如 果 是 多 少 ? 
他 以 平均 每 手 50 美元 赌资 玩 4 小 时 的 话 ， 则 店 里 d. 有 5 分 钟 或 更 长 时 间 没 有 电话 呼叫 的 概率 是 
提供 免费 房间 。 他 的 赌博 策略 使 得 在 每 一 手中 有 多 少 ? 





案例 ”Specialty 玩具 公司 


Specialty 玩具 公司 销售 大 量 新 款 又 有 创意 的 玩具 。 经 营 者 知道 节日 前 是 推出 新 款 玩 具 的 最 佳 时 机 ， 因 为 许多 
家 庭 此 时 都 要 为 12 月 里 的 节日 准备 礼物 。Specialty 公司 发 现 一 种 新 款 玩具 颇具 市 场 潜力 ， 于 是 决定 从 10 月 份 起 
将 其 投放 市 场 。 

为 保证 玩具 能 在 10 月 份 在 商场 按期 到 货 ，Specialty 公司 在 每 年 的 6 月 或 者 7 月 向 制造 商 下 达 订 单 。 儿 童 玩 具 
的 需求 量 瞬 轧 万 变 。 如 果 一 种 新 款 玩具 推出 时 正 值 市 面 上 缺 货 ， 那 么 可 能 会 有 很 高 的 销售 量 ， 从 而 得 到 大 笔 的 利 
润 。 但 是 ， 推 出 一 种 新 款 玩 其 时 也 可 能 会 遇 到 沾 铺 ， 这 将 使 得 Specialty 公司 积压 大 量 的 存货 ， 从 而 不 得 不 降价 销 
售 。 因 此 ， 公 司 所 面临 的 最 主要 的 问题 是 : 为 保证 节日 期 间 的 供应 ,应 下 达 多 大 数目 的 订单 ? 如 果 订 货 量 太 少 ， 
可 能 表 失 销售 收入 ; 反之 如 果 订 货 量 过 大 ， 则 可 能 由 于 低 价 清 货 而 降低 利润 。 

Specialty 公司 计划 下 一 季度 向 市 场 推出 一 款 名 为 天 气 能 的 新 产品 。 这 种 会 说 话 的 玩具 能 由 中 国 台 湾 地 区 一 家 
公司 生产 。 当 禾 子 握 小 熊 的 手 的 时 候 ， 玩 具 熊 中 内 置 的 气压 计 作出 反应 ， 小 熊 便 开口 说 话 预 测 天 气 情况 。 小 熊 共 
有 “天 气 真 不 错 ， 好 好 玩 吧 ”以 及 “我 想 今 天 也 许 有 雨 ， 别 忘 了 带 命 ”等 五 种 说 法 。 产 品 检 验 发 现 ， 虽 然 这 不 是 
一 个 专门 的 天 气 预报 装置 ， 但 它 的 预测 还 是 相当 不 错 的 。Specialty 公司 的 一 些 管理 者 甚至 认为 ， 玩 具 熊 对 天 气 的 
预报 可 以 和 当地 电视 台 的 天 气 预 报 媲美 。 

与 其 他 产品 一 样 ，Specialty 公司 必须 确定 为 即将 到 来 的 下 一 季 中 的 节日 应 下 达 多 少 只 天 气 熊 的 订单 。 管 理 层 
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团队 建议 准备 4 000 只、18000 只 、24.000 只 或 者 28 000 只 。 不 同 的 订货 方案 说 明 管理 层 团 队 中 对 产品 的 市 场 潜 
力 存 在 相当 大 的 分 上层。 生产 管理 部 门 要 求 你 分 析 不 同 订货 方案 的 存货 出 清 概 率 ， 估 计 潜 在 利润 并 推荐 一 种 订货 方 
案 。 每 个 天 气 熊 的 成 本 为 16 美元 ，Specialty 公司 希望 以 24 美元 的 价格 出 售 。 如 果 节 日 过 后 仍 有 存货 ，Specialty 公 
司 将 以 每 只 5 美元 的 价格 清仓 销售 。 根 据 以 往 同 类 产品 的 历史 销售 量 ，Specialty 公司 产品 销量 的 资深 预测 专家 预 
计 天 气 熊 的 需求 量 为 20 000 只 ， 需 求 量 在 10 000 只 到 30 000 只 之 间 的 概率 为 0.95。 


管理 报告 

准备 一 份 管理 报告 说 明 下 列 问题 ， 并 针对 天 气 熊 产品 推荐 你 的 一 种 订货 方案 。 

1. 根据 销量 预测 专家 的 预测 ， 和 需求 量 的 分 布 近 似 服从 正 态 概率 分 布 。 简 略 说 明 该 分 布 ， 给 出 英 均 值 和 标 
准 差 。 

2. 计算 管理 团队 所 推荐 的 订货 方案 的 存货 出 清 概 率 。 

3. 在 下 列 三 种 情形 的 销售 量 下 ， 分 别 计 算 管 理 团队 所 推荐 的 订货 方案 的 预计 利润 最 是 的 情形 : 销售 量 为 
I0 000 只 ; 最 可 能 出 现 的 情形 : 销售 量 为 20000 只 ; 最 好 的 情形 : 销售 量 为 30000 只 。 

4. Specialty 公司 的 一 名 经 理 认为 产品 的 潜在 利润 很 高 ， 因 此 订货 应 该 以 70% 的 概率 保证 满足 市 场 需求 ， 仅 需 
以 30 和 的 概率 出 现 脱 销 。 在 这 种 情形 下 ， 天 气 能 的 订货 量 应 该 是 多 少 ? 在 上 述 三 种 不 同 的 销售 量 下 ,预计 利润 分 
别 是 多 少 ? 

5. 给 出 你 的 订货 方案 及 其 预计 利润 ， 并 对 订货 方案 的 合理 性 作出 解释 。 
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实践 中 的 统计 


MeadWestvaco 有 限 公 司 


康 淫 犹 格 州 ， 


MeadWestyaco 公司 是 一 家 生产 包装 纸 、 铜 版 纸 和 
特种 纸 以 及 特种 化 学 制品 的 企业 ， 是 同行 业 中 的 领军 
人 物 。 公 司 麻 用 的 员工 超过 1.7 万 名 ， 在 全 世界 30 个 
国家 有 业务 活动 ， 服 务 的 客户 超 布 大 约 100 个 国家 。 
MeadWestvaco 内 部 的 顾问 组 通过 抽样 为 公司 提供 大 量 
信息 ， 以 保证 企业 获得 可 观 的 产品 收益 ， 并 在 该 行业 
保 特 竞争 力 。 

例如 ，MeadWestvaco 拥有 大 量 的 森林 资源 ， 它 们 
为 公司 生产 多 种 产品 提供 所 需 的 原料 一 一 树木 。 管 理 
人 员 需 要 掌握 关于 木材 及 森林 准确 而 可 靠 的 信息 ， 比 
恕 ， 和 森林 的 现 有 储量 如 何 ， 森 林 以 往 的 生长 情况 如 何 ， 
森林 未 来 计划 生长 情况 如 何 。MeadWestvaco 的 管理 人 
员 基 于 这 些 重要 问题 的 管 案 ， 制定 未 来 包括 树木 的 长 
期 种 植 和 采伐 时 间 表 在 内 的 计划 。 

MeadWestvaco 公司 拥有 大 量 森 林 ， 它 是 如 何 获 取 
所 需要 的 这 些 资源 的 信息 的 呢 ? 从 遍布 森林 的 抽样 点 
收集 数据 是 对 公司 拥有 的 树木 总 体 进 行 了 解 的 基础 。 


在 第 1 章 中 ， 我 们 给 出 了 个 体 、 总 体 和 样本 的 定义 。 


(1) 个 体 是 收集 数据 的 基本 单位 。 
(2) 总 体 是 所 有 感 兴趣 的 个 体 的 集合 。 
(3) 样本 是 总 体 的 一 个 子 集 。 





斯 坦 福 德 


为 了 确定 抽样 点 ， 首 先 按照 位 置 和 有 树种 将 木材 林 分 成 
三 部 分 ， 利 用 地 图 积 随 机 数 ，MeadWestvaco 的 分 析 人 
员 从 每 部 分 森林 中 选取 175 ~1/7 英亩 的 树木 组 成 随机 
样本 。MeadWestvaco 公司 的 林 务 员 通 过 从 这 些 抽 样 点 
收集 的 数据 了 解 森林 总 体 。 

全 体 林 务 员 参加 数据 的 收集 过 程 。 他 们 两 人 一 组 
定期 收集 每 一 抽样 点 中 每 裸 树 的 信息 。 这 些 抽 样 数据 
被 录入 公司 的 森林 永 续 存货 (CFI) 计算 机 系统 。 该 系 
统 所 提供 的 报告 汇总 了 大 量 数据 的 频率 分 布 信息 ， 对 
包括 树木 类 型 、 现 有 琳 林 人 储量、 森林 以 往生 产 率 、 未 
来 计划 森林 生长 和 储量 作出 统计 。 抽 样 和 对 抽样 数据 


的 统计 汇总 报告 为 MeadWestvaco 有 效 管 理 森林 和 木材 


林 提 供 了 重要 的 保证 。 

本 章 将 学 习 简 单 随机 抽样 和 样本 选择 方法 。 另 外 ， 
还 要 学 习 如 何 利 用 统计 量 ， 比 如 样本 均值 和 样本 比率 
来 估计 总 体 均 值 和 总 体 比率 。 此 外 ， 还 将 介绍 抽样 分 
布 的 重要 概念 。 


我 们 选取 样本 的 目的 就 是 为 了 收集 用 于 推断 所 需 的 数据 ， 并 且 回 答 关 于 总 体 的 研究 问题 。 

下 面 我 们 从 两 个 例子 开始 ， 这 两 个 例子 都 是 利用 抽样 来 回答 关于 总 体 的 一 个 研究 问题 的 。 

(1) 得 克 萨 斯 州 某 个 政治 团体 的 成 员 正在 考虑 支持 某 候选 人 竞选 美国 参议 员 。 政 治 团体 领导 者 需要 对 本 州 登 
记 选 民 中 支持 该 名 候选 人 的 比率 做 一 个 估计 。 选 取得 克 萨 斯 州 400 名 登记 选民 组 成 一 个 样本 ， 其 中 有 160 人 对 该 
候选 人 表示 支持 。 困 此， 登记 选民 总 体 中 支持 该 候选 人 比率 的 估计 值 为 160/400 =0. 4。 

(2) 一 个 轮胎 制造 商 正在 考虑 生产 一 种 新 设计 开发 的 轮胎 ， 这 种 轮胎 行驶 的 里 程 数 超过 了 企业 现 有 生产 线 上 
轮胎 的 里 程 数 。 为 了 对 这 种 新 型 轮胎 的 平均 使 用 寿命 作出 佑 计 。 人 制造 商 生 产 卫 120 个 这 种 新 型 轮胎 组 成 样本 用 于 
检测 ， 检 测 结果 表明 样本 均值 为 36 500 英里 。 于 是 ， 该 种 新 型 轮胎 总 体 的 平均 使 用 寿命 的 估计 值 为 36 500 英里 。 

抽样 结果 提供 的 仅仅 是 相应 总 体 特征 值 的 估计 ， 认 识 到 这 一 点 非常 重要 。“ 我 们 并 不 期 望 注册 选民 总 体 中 恰好 
有 40% 的 人 支持 该 候选 人 ; 同样， 我 们 也 没有 期 望 样本 均值 36 500 英里 恰好 是 所 生产 的 新 型 轮胎 总 体 的 平均 里 
程 。 原 因 很 简单 ， 样 本 只 包含 了 总 体 的 一 部 分 ， 可 以 预见 ， 会 有 抽样 误差 。 利 用 恰当 的 抽样 方法 ， 抽 样 结 果 可 以 


”作者 感谢 Edward P. Winkofsky 博士 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
妃 、 样 本 均值 是 总 体 均 值 的 估计 值 ， 样 本 比率 是 总 体 比率 的 居 计 值 。 这 种 估计 是 有 抽样 误差 的 。 本 章 给 出 了 确定 抽样 误差 的 大 小 的 基本 


原则 。 
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给 出 关于 总 体 特征 的 一 个 “好 ”的 估计 。 那 么 , 我们 希望 抽样 结果 好 到 什么 程度 呢 ? 统计 过 程 可 以 对 此 问题 作出 
回答 。 

我 们 定义 一 些 抽样 的 术语 。 从 中 抽取 样本 的 总 体 叫 作 抽样 总 体 (sampled population) 。 抽 样 框 〈frame) 是 用 
于 抽 选 样本 的 个 体 清单 。 在 第 一 个 例子 中 ， 抽 样 总 体 是 得 克 萨 斯 州 所 有 的 登记 选民 ， 抽 样 框 是 所 有 登记 选民 的 清 
单 。 由 于 得 克 萨 斯 州 所 有 登记 选民 数目 是 一 个 有 限 的 值 ， 因 此 ， 第 一 个 例子 是 从 一 个 有 限 总 体 进行 抽样 的 实例 。 
在 第 7.2 节 ， 我 们 将 讨论 如 何 从 一 个 有 限 总 体 抽取 一 个 简单 随机 样本 。 

在 轮胎 行驶 里 程 的 例子 中 ， 由 于 120 个 轮胎 所 组 成 的 样本 取 自 某 一 特定 时 点 的 生产 过 程 ， 定义 抽 样 总 体 变 得 
尤为 困难 。 我 们 可 以 把 抽样 总 体 看 作 一 个 由 生产 过 程 茶 一 段 特 定时 间 段 所 生产 的 全 部 轮胎 组 成 的 抽象 总 体 。 从 这 
个 意义 上 讲 ， 可 以 认为 抽样 总 体 是 无 限 的 ， 因 此 无 法 构建 一 个 抽样 框 。 在 第 7.2 节 ， 我 们 将 讨论 在 这 种 情形 下 如 
何 抽取 一 个 随机 样本 。 

本 章 ， 我 们 首先 说 明了 如 何 采用 简单 随机 抽样 从 一 个 有 限 总 体 中 选取 样本 。 对 由 连续 运行 过 程 形 成 的 无 限 总 
体 ， 描 述 如 何 从 无 限 总 体 中 选取 随机 样本 。 然 后 说 明 如 何 利 用 简单 随机 抽样 得 到 的 数据 计算 总 体 均 值 、 总 体 标准 
差 和 总 体 比 率 的 估计 值 。 男 外 ， 我 们 还 介绍 了 抽样 分 布 的 重要 概念 。 正 如 将 要 介绍 的 那样 ， 抽 样 分 布 的 知识 使 我 
们 可 以 说 明 样 本 估计 值 与 相应 总 体 参 数 的 接近 程度 。 最 后 一 节 里 ,我们 还 将 讨论 实际 应 用 中 除 简单 随机 抽样 之 外 
的 其 他 一 些 常用 随机 抽样 方法 。 


7. 1 EAI 的 抽样 问题 


EAI 公司 的 人 事 部 经 理 被 分 派 一 项 任务 ， 要 求 为 公司 2 500 名 管理 人 员 制 定 一 份 简 报 ， 内 容 包 括 管理 人 员 的 
平均 年 薪 和 公司 中 已 完成 公司 管理 培训 计划 的 管理 人 员 所 占 的 比率 。 

2 500 名 管理 人 员 构 成 此 项 研究 的 总 体 ， 我 们 可 以 参考 公司 的 职员 记录 找到 总 体 中 每 个 人 的 年 薪金 额 和 是 否 
完成 管理 培训 计划 。 总 体 中 2 500 名 管理 人 员 的 信息 数据 存放 在 名 为 EAI 的 文件 内 。 

利用 EAI 的 数据 和 第 3 章 介 绍 的 公式 ， 可 以 计算 年 薪 数 据 的 总 体 均值 和 总 体 标准 差 。 

总 体 均 值 : 几 = 51 800 美元 
总 体 标准 差 : rr = 4000 美元 
数据 显示 ，2 500 名 管理 人 员 中 有 1 500 人 已 经 完成 培训 计划 。 

总 体 的 数字 特征 称 作 参 数 (parameters)， 将 总 体 中 已 完成 培训 计划 的 职员 比率 记 做 p， 有 p=1 500/2 500 = 
0.6。 总 体 年 薪 均 值 (jw =51 800 美元 )、 总 体 标准 差 (0 =4 000 美元 ) 和 完成 培训 计划 的 总 体 比 率 (p =0.6) 都 
是 EAI 管理 人 员 总 体 的 参数 。 

现在 ,假设 我 们 无 法 从 公司 的 数据 库 中 获得 EAI 管理 人 员 这 些 必要 的 信息 。 我 们 考虑 的 问题 是 ， 如 果 不 用 总 
体 中 全 体 2 500 名 管理 人 员 ， 而 是 用 一 个 样本 的 话 ， 企 业 人 事 部 经 理 将 如 何 获取 对 这 些 总 体 参 数 的 估计 呢 ? 假定 
选取 30 名 管理 人 员 组 成 一 个 样本 ， 显 然 ， 这 样 比 编写 整个 总 体 的 简报 要 节 纺 时 间 和 成 本 。” 如 果 人 事 部 经 理 确 信 ， 
30 名 管理 人 员 的 样本 提供 了 关于 总 体 中 2500 名 管理 人 员 的 足够 信息 ， 那 么 用 样本 比 用 整个 总 体 来 编写 简报 更 好 。 
首先 ， 我 们 从 考虑 如 何 取得 一 个 30 名 管理 人 员 的 样本 入 手 , 探究 利用 样本 研究 EAI 问题 的 可 能 性 。 


7.2 抽样 
本 节 我 们 描述 如 何 选 取样 本 。 首 先 ， 我 们 描述 从 有 限 总 体 抽样 ， 然 后 描述 从 无 限 总 体 抽样 。 


7.2. 1 从 有 限 总 体 的 抽样 
在 从 有 限 总 体 抽样 时 ， 统 计 学 家 建议 采用 概率 抽样 ， 因 为 基于 概率 抽样 的 样本 可 以 对 总 体 进 行 有 效 的 统计 扒 


昌 通常 情况 下 ， 从 一 个 样本 中 收集 信息 的 成 本 要 大 大 低 于 从 总 体 中 收集 信息 的 成 本 ， 特 别 是 当 需 要 通过 个 大 访谈 来 收集 信息 的 时 候 。 
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断 。 若 每 个 容量 为 x 的 样本 以 相同 的 概率 被 抽 到 ;， 则 称 这 种 抽样 方式 为 简单 随机 样本 。 “这 是 最 简单 的 一 种 概率 抽 
样 ， 从 容量 为 N 的 有 限 总 体 抽取 容量 为 n 的 简单 随机 样本 (simple radom sample) 的 定义 如 下 。 


jo 
We 





和 r Ek = . 
hid 1 = 2 
"7 ' a 二 了 
， | We i 二 ， y 
Cs i i hk BE S -oo ly ~ - | Ee 


自 有 限 总 体 选择 简单 随机 样本 的 二 种 抽样 流程 是 ， 每 次 只 选择 一 个 样本 点 ， 总 体 中 的 每 一 个 体 等 可 能 被 抽 
到 。 用 这 种 方式 抽 得 的 个 个 体 满足 自 有 限 总 体 的 简单 随机 样本 的 定义 。 

为 了 从 EAI 管理 人 员 组 成 的 有 限 总 体 中 抽取 一 个 简单 随机 样本 ， 我 们 首先 为 每 名 管理 人 员 依 次 标号 建立 一 个 抽 
样 框 。 比 如 ， 按 照管 理 人 员 姓 名 在 EAI 个 人 信息 文件 中 出 现 的 顺序 分 别 为 管理 人 员 标 号 1 ~2 500。 其 次 ， 我 们 查 随机 
数 表 3( 见 表 7-1)。 表 中 第 一 行 的 每 个 数字 6, 3，2，…， 都 是 随机 数 ， 以 相同 的 机 会 发 生 。 由 于 EAI 管理 人 员 总 体 
的 最 大 标号 为 2500， 是 四 位 数 ， 我 们 从 表 中 每 4 位 一 组 选择 随机 数 “。 可 以 从 表 中 任意 一 处 开始 ， 按 照 我 们 的 方向 
饥 械 地 移动 来 选取 随机 数 。 我 们 根据 表 7-1 第 一 行 按 从 左 到 右 的 方向 移动 ， 得 到 的 前 7 个 四 位 随机 数 为 

6327 1 $99 8671 7445 1 102 1 $14 1 807 

由 于 表 中 数字 是 随机 的 ， 因 此 这 些 四 位 数 也 是 等 可 能 的 。 

采用 这 些 四 位 随机 数 ， 我 们 现在 可 以 将 总 体 中 每 一 管理 人 员 以 相等 的 机 会 选 入 随机 样本 。 第 一 个 数 6 327 比 
2 500 大 ,与 总 体 中 任 一 管理 人 员 的 编号 不 符 ， 于 是 舍弃 ; 第 二 个 数 1 599 介 于 1 ~2500， 于 是 EAI 管理 人 员 名 单 
中 标号 为 1599 的 管理 人 员 第 一 个 被 选 入 随机 样本 。 继 续 该 过 程 ， 忽 略 :8 671 和 7 455， 选 择 标 号 为 1 102，1 514， 
1 807 的 管理 人 员 进 入 随机 样本 。 这 一 过 程 一 直 继 续 下 去 ， 直 到 取得 由 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 。 

选取 简单 随机 样本 时 ， 在 30 名 管理 人 员 被 选 出 之 前 ， 表 中 先前 已 经 出 现 过 的 随机 数 可 能 重复 出 现 。 由 于 该 管理 
人 员 已 经 被 选 和 人 样本 了 ， 我 们 并 不 想 将 一 个 管理 人 员 多 次 选 信 ， 所 以 忽略 已 出 现 过 的 随机 数 。 这 种 选取 样本 的 方式 
叫 作 无 放 回 抽样 (sampling without replacement) 。 如 果 我 们 选取 样本 时 ， 对 已 经 出 现 过 的 随机 数 仍 选 人 样本， 某 些 管 
理 人 员 可 能 在 样本 中 被 两 次 或 更 多 次 地 包括 进来 ， 则 我 们 进行 的 是 放 回 抽样 (sampling with replacement ) 。 抽 样 中 ， 
放 回 抽样 是 一 种 取得 简单 随机 样本 的 有 效 途 径 ， 然 而 ， 无 放 回 抽样 更 为 常用 。 当 我 们 提 到 简单 随机 抽样 时 ， 我 们 总 
是 假定 抽样 是 无 放 回 的 。 


表 7-1 随机 数 表 
63 271 59 986 ， 71744 51102 15 141 80 714 58 683 93 108 13 554 79.945 
88 547 09 896 95 436 79 115 08 303 01 041 20 030 63 754 08 459 28 364 
55 957 57 243 83 865 09911 19 761 66 535 40 102 26 646 60 147 15 702 
46276 87 453 44790 67 122 45.573 84 358 21 625 16 999 13 385 22 782 
55 363 07 449 341895 1 VI DIS290 76 616 67 191 12.777 21 861 68 689 03 263 
69 393 92 785 49902 58.447 42 048 30 378 87 618 26.933 40 640 16 281 
13 186 29431 88 190 04 588 38 733 81 290 89 541 70 290 40 113 08 243 
17726 28 652 56 836 78351 47327 18 518 92222 55 201 27 340 10 493 
36 520 64 465 05 550 30 157 “82 242 29 520 69 753 72 .602 23 756 54 935 
81 628 36 100 39 254 56 835 37 636 02 421 98 063 89 641 64 953 99 337 
84 649 48 968 75 215 75 498 49 539 74 240 03 4 66 49 292 36 401 45 525 
63 291 11 618 12 613 75 055 43 915 26 488 41 116 64 531 56 827 30 825 
70 502 53 225 03 655 05 915 37 140 57051 48 393 91 322 25 653 06 543 
06 426 24771 59 935 49 801 11 082 66 762 94 477 02 494 88 215 27 191 
20711 55 069 29 430 70 165 45 406 78 484 31 639 52.009 18 873 96 927 


41 990 70 538 77 191 25 860 55 204 73 417 83 920 69 468 74 972 38 712 


马 ”关于 概率 抽样 的 其 他 方法 将 在 第 7. 8 节 中 介绍 。 
加 在 本 章 的 附录 中 ， 我 们 将 说 明 如 何 用 Minitab ，Excel 和 StatTools 从 有 限 总 体 中 抽取 简单 随机 样本 。 
四 为 了 可 读 性 ， 表 中 的 随机 数 都 用 五 位 数 来 表示 。 
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( 续 ) 
72.452 36618 76 298 26 678 89 334 33.938 95 567 29380 75 906 91 807 
37 042 40 318 57 099 10 528 09 925 89 773 41 335 96 244 29 002 46 453 
53 766 52 875 15 987 46 962 67 342 77 592 57 651 95 508 80 033 69 828 
90 585 58 955 53 122 16 025 84 299 53310 67 380 84 249 25 348 04 332 
32 001 96 293 37 203 64 516 51 530 37 069 40216 61 374 05 815 06714 
62 606 64 324 46 354 72 157 67 248 20 135 49 804 09 226 64 419 29 457 
10 078 28 037 85 389 50 324 14 500 15 562 64 165 06 125 71 353 77 669 
91 561 46 145 24 177 15 294 10 061 98 124 75 732 O00 815 83 452 97 355 
13 091 98 112 53 959 79 607 52 244 63 303 10413 -~ 63839 74 762 50 289 


7. 2.2 从 无 限 总 体 的 抽样 


有 时 候 ， 我 们 想 从 总 体 中 抽取 样本 ， 但 是 总 体 容量 无 限 大 或 者 总 体 中 的 个 体 是 由 一 个 正在 运行 的 过 程 产生 
的 ， 从 而 生成 的 个 体 数 量 是 无 限 的 ， 因 此 无 法 得 到 总 体 中 所 有 个 体 的 清单 ， 这 是 无 限 总 体 的 情形 。 对 于 无 限 总 
体 ， 由 于 无 法 构建 一 个 包含 全 部 个 体 的 抽样 框 ， 因 此 无 法 抽取 一 个 简单 随机 样本 。 对 于 无 限 总 体 的 情形 ， 统 计 学 
家 建议 抽取 一 个 所 谓 的 随机 样本 (random sample) 。 
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当 从 无 限 总 体 中 抽取 一 个 随机 样本 时 ， 必 须 小 心 并 仔细 判断 。 不 同情 形 可 能 需要 采取 不 同 的 抽取 方法 。 我 们 通 
过 两 个 例子 来 说 明 条 件 1“ 抽 取 的 每 个 个 体 来 自 同一 总体 ”和 条 件 2“ 每 个 个 体 的 抽取 是 独立 的 ”的 含义 。 

在 普通 的 质量 控制 的 应 用 中 ， 生 产 过 程 中 所 生产 的 产品 数量 是 无 限 的 。 抽 样 总 体 是 由 正在 运行 的 生产 过 程 中 
生产 的 全 部 产品 而 不 仅仅 是 由 那些 已 经 生产 的 产品 组 成 。 因 为 我 们 不 可 能 列 出 生产 的 全 部 产品 的 清单 ， 所 以 认为 
总 体 是 无 限 的 。 更 具体 地 ， 比 如 设计 一 条 生产 线 用 于 盒 装 早餐 麦片 ， 早 餐 麦 片 的 平均 重量 为 每 盒 24 盎司 。 为 判 
断 生产 线 是 正常 运行 还 是 由 于 机 器 故障 使 得 生产 线 的 填充 量 过 多 或 者 不 足 ， 一 位 质量 控制 检验 员 定期 从 生产 线 上 
抽取 12 盒 产品 组 成 一 个 样本 。 

在 这 样 一 个 生产 操作 中 ， 选 取 一 个 随机 样本 时 最 关心 的 是 条 件 1“ 抽 取 的 每 个 个 体 来 自 同一 总 体 ” 是 否 成 立 。 
为 了 确保 这 一 条 件 成 立 ， 必 须 在 近似 相同 的 时 点 选择 产品 。 这 样 ， 才 能 避免 检验 员 抽取 的 某 些 盒 来 自生 产 线 正常 
运行 时 ， 而 另 一 些 产品 是 在 生产 线 非 正常 运行 ， 从 而 使 得 每 盒 的 填充 量 过 多 或 者 不 足 。 在 诸如 这 样 的 生产 过 程 
中 ， 设 计 的 生产 流程 应 确保 每 盒 麦 片 的 装 盒 是 相互 独立 的 ， 从 而 满足 条 件 2， 即 “每 个 个 体 的 抽取 是 独立 的 ”。 在 
这 个 假定 下 ,检验 员 只 需 关注 条 件 “每 个 个 体 来 自 同一 总 体 ”是 否 成 立即 可 。 

从 无 限 总 体 抽取 随机 样本 的 另 一 个 例子 是 ， 考 虑 由 到 达 快餐 店 的 顾客 组 成 的 总 体 。 假 定 快餐 店 要 求 一 名 雇员 
选取 顾客 样本 ， 完 成 一 个 简短 的 调查 问卷 。 顾 客 光临 快餐 店 是 一 个 正在 进行 中 的 过 程 ， 因 此 不 能 得 到 总 体 中 所 有 
顾客 的 一 个 名 单 。 于 是 ， 出 于 应 用 的 目的 ， 可 以 将 这 个 正在 进行 过 程 中 的 总 体 看 作 无 限 的 。 如 果 设 计 一 种 抽样 广 
法 ,使 得 样本 中 的 所 有 个 体 都 是 餐厅 的 顾客 并 且 是 独立 选择 的 ， 那么 可 以 得 到 一 个 随机 样本 。 这 时 ， 雇 员 应 该 在 
那些 进入 餐馆 并 就 餐 的 人 中 选取 ， 以 保证 满足 “个 体 来 自 同一 总 体 ”的 条 件 。 如 果 雇 员 选 取 了 那些 只 是 为 了 使 用 
洗手 间 而 进入 餐馆 的 人 组 成 样本 ， 这 些 人 并 不 是 顾客 ,违背 了 “同一 总 体 ”的 条 件 。 因 此 ， 如 果 调 查 员 是 从 那些 
来 餐馆 消费 的 人 中 选取 样本 的 话 ， 那么 条 件 1 可 以 被 满足 。 尤 为 困难 的 是 ， 确 保 独立 地 选取 顾客 。 

随机 样本 选择 方法 中 的 第 二 个 条 件 “ 独 立 选择 各 个 个 体 ”的 用 意 是 为 了 防止 选择 偏差 。 当 调查 员 可 以 任意 自由 
地 选取 顾客 进入 样本 时 ;就 可 能 发 生 选 择 偏 倚 。 此 时 ， 调 查 员 可 能 更 愿意 选择 抽取 菜 一 特定 年 龄 眉 的 顾客 进入 样本 ， 
而 避免 从 其 他 年 龄 段 的 顾客 中 抽取 。 再 比如 ,五 名 顾客 一 同 前 来 就 餐 ， 如 果 调 查 员 将 他 们 一 同 选 入 样本 ， 也 会 发 生 
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选择 偏差 。 这 样 的 一 组 顾客 更 易于 表现 出 相似 的 特征 ， 他 们 所 给 出 的 关于 顾客 总 体 的 信息 可 能 具有 误导 性 。 通 过 确 
保 某 一 顾客 的 入 选 并 不 影响 其 他 顾客 的 入 选 ， 则 可 以 避免 这 类 选择 偏差 。 换 而 言 之 , 个 体 (顾客 ) 的 选取 是 独立 的 。 
快餐 店 的 巨头 麦当劳 恰好 在 这 种 情况 下 实施 了 一 次 随机 抽样 。 抽 样 方法 以 一 些 顾客 是 否 持 有 优惠 券 为 依据 ， 
每 当 一 名 顾客 出 示 优 惠 券 时 ， 将 选取 下 一 名 接受 服务 的 顾客 填写 一 张 顾客 问卷 调查 表 。 因 为 来 到 表 当 劳 的 顾客 出 
示 优 惠 券 是 随机 的 ， 并 且 与 其 他 顾客 是 相互 独立 的 ， 因 此 这 种 抽样 方式 确保 对 顾客 的 选取 是 独立 的 。 于 是 ， 样 本 
满足 从 无 限 总 体 抽 取 随 机 样本 的 要 求 。 
从 无 限 总 体 抽样 的 情况 总 是 与 某 段 时 间 正 在 不 断 运 行 的 过 程 相 联系 。 倒 如， 生产 线 上 生产 的 零 部 件 、 实 验 室 
中 反复 进行 的 实验 。 银行 发 生 的 交易 、 技 术 文 持 中 心 接 到 的 电话 以 及 进 大 零售 店 的 顾客 。 它 们 都 可 以 看 作 一 个 从 
无 限 总 体 产 生 个 体 的 过 程 。 如 果 样 本 中 的 个 体 选 自 同一 个 总 体 ， 并 且 是 独立 选取 的 ， 那么 样本 就 可 以 看 作 一 个 来 
自 无 限 总 体 的 随机 样本 。 
注释 和 评论 
1. 本 节 中 ,我 们 详细 定义 了 两 类 样本 : 来 自 有 限 总 体 的 简单 随机 样本 和 来 自 无 限 总 体 的 随机 样本 。 在 本 书 余 
下 的 部 分 中 ， 我 们 一 般 将 这 两 类 样本 统称 为 随机 样本 或 者 样本 。 除 非 需要 ， 在 习题 或 者 讨论 中 我 们 并 不 刻 
意 区 分 样本 是 否 是 “简单 ”随机 样本 。 
2. 在 从 有 限 总 体 的 抽样 调查 中 ， 统 计 学 家 使 用 的 抽样 方法 是 概率 抽样 。 在 概率 抽样 中 ， 每 个 可 能 的 样本 都 有 
一 个 已 知 的 抽取 概率 ， 并 且 对 样本 中 个 体 的 抽取 使 用 了 随机 方法 。 简 单 随机 抽样 就 是 这 类 方法 当中 的 一 
种 。 在 第 7.8 节 ， 我 们 将 介绍 其 他 一 些 概率 抽样 方法 : 分 层 随机 抽样 、 头 群 抽样 和 系统 抽样 。 在 简单 随机 
抽样 中 ,“ 简 单 ” 这 个 词 是 为 了 保证 这 是 一 种 概率 抽样 ， 每 个 容量 为 必 .的 样本 都 以 相同 的 概率 被 选取 。 
3. 自 一 个 容量 为 入 的 有 限 总 体 ， 选 取 容 量 为 nn 的 简单 随机 样本 ， 有 
Ni! 
nil(N -nn)! 
种 不 同 的 选 法 。 公 式 中 ，N! 和 nl! 是 第 4 章 中 所 讲 过 的 阶乘 运算 。 在 EAI 问题 中 ,N=2500, n=30， 从 
上 式 可 知 ， 由 30 名 EAI 党 理 人 员 组 成 的 不 同 的 简单 随机 样本 的 数目 大 约 为 2.75 x10” 个 。 
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方法 本 ， 对 交易 业务 进行 调查 。 





2 假定 有 限 总 体 中 有 350 个 个 体 ， 用 下 面 五 位 随机 数 a 从 表 7-1 第 6 列 的 第 一 个 随机 数 开 始 按 列 向 下 ， 选 
Rr 
入 简单 随机 样本 的 前 4 个 个 体 。 ER i 
98 601 73022 83448 34229 27553 84 147 A Se 
93 289 14 209 

6. 由 美国 人 口 统计 局 出 版 的 《全 美 县 和 市 的 数据 》 一 

应 用 书 中 列 示 了 全 美 3139 个 县 (市) 的 信息 。 假 定 一 

4. 纽约 证 券 交 易 所 (NYSE) 2006 年 3 月 6 日 10 支 最 活 项 国内 研究 中 ， 要 从 中 随机 选取 30 个 县 (市) 收 
路 的 股票 如 下 ( 《华尔街 日 报 》，2006 年 3 月 7 日 )。 集 数据 。 利 用 表 7-1 最 后 一 列 的 四 位 随机 数 做 为 选 







择 样 本 时 头 5 个 县 (市 ) 的 编号 。 忽 略 头 一 位 数 ， 





美国 电话 电报 . 美国 辉瑞 

美国 Licent 公司 美国 德州 仪器 从 四 位 随机 数 9945,， 8364，5702 等 开始 。 

美国 北 电 美国 通用 电气 8. 下 表 是 道琼斯 工业 平均 指数 中 的 30 种 成 分 股 (《 巴 
美国 Qwest 美国 iShrMSJpn 伦 周 刊 》，，2012 年 6 月 30 上 日)。 假定 你 想 要 从 中 选 


取 6 家 公司 组 成 一 个 样本 ， 对 管理 实践 进行 深入 研 
究 。 利 用 表 7-1 第 9 烈 中 每 行 的 前 两 位 数字 ， 从 中 
交易 当局 决定 从 这 些 股票 中 选取 3 只 组 成 的 一 个 样 选取 6 家 公司 组 成 一 个 简章 随机 样本 。 


美国 南方 贝尔 美国 LSI Logic 
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1.3M 公司 16. 家 得 宝 10. 说 明 下 列 情形 下 ， 哪 些 是 自 有 限 总 体 的 抽样 ， 哪 些 
2. 美国 电话 电报 公司 17. IBM 和 起 时 
Pr HH 是 自 无 限 总 体 的 抽样 。 当 抽样 总 体 是 有 限 的 时 候 ， 
4. 美国 运通 公司 19. 强生 制药 有 限 公司 说 明 你 是 如 何 建立 抽样 框 的 。 

5, 美国 急行 20. 卡 夫 食 般 公 司 a. 抽取 纽约 州 注册 驾驶 员 的 一 个 样本 。 

6. 波音 公司 21. 麦当劳 i 

7. 卡特 彼 勒 公司 22. 默 克制 药 b. 抽取 Breakfast Choice 公司 生产 的 鳄 装 麦片 的 一 
8. 雪 佛 龙 公司 23. 微软 个 样本 。 

9. 思科 公司 24. 摩根 大 通 银行 TO 

Wo J c. 抽取 菜 工 作 日 通过 金门 大 桥 的 汽车 的 一 个 
11. 迪士尼 26. 宝洁 公司 样本 。 

12. 杜邦 公司 27. Travelers 保险 公司 si ~ 。 ; Pa 
i 二 4 抽取 印第安 纳 大 学 选修 统计 课 的 学 生 的 一 个 
14. 通用 电气 29. 威 瑞 森 公司 样本 。 
1 es e 抽取 菜 邮购 业务 公司 处 理 的 订单 的 一 个 样本 。 

7.3 点 估计 


我 们 已 经 描述 了 如 何 选 取 一 个 简单 随机 样本 ， 现 在 我 们 回 到 EAI 问题 。 假 定 已 选取 了 一 个 由 30 名 管理 人 员 
组 成 的 简单 随机 样本 ,他 们 相应 的 年 薪 及 参加 管理 培训 计划 的 数据 如 表 7-2 所 示 。 符 号 x!，%x,，… 代 表 样 本 中 第 
一 名 管理 人 员 的 年 薪 、 第 二 名 管理 人 员 的 年 薪 …… 在 管理 培训 计划 这 一 栏 ， 已 参加 过 管理 培训 计划 的 人 员 用 
“是 ”表示 。 

为 了 估计 总 体 参数 ， 计 算 相 应 的 样本 特征 一 一 样本 统计 量 (sample statistie) 。 例 如 ， 为 了 估计 EAI 管理 人 员 
年 薪 的 总 体 均 值 K 和 总 体 标 准 差 rw， 我 们 用 表 7-2 的 数据 计算 相应 的 样本 统计 量 : 样本 均值 和 样本 标准 差 ,。 根 据 
第 3 章 中 样本 均值 和 样本 标准 差 的 公式 ， 得 样本 均值 为 





i i 814( 美 元) 
n 30 
样本 标准 差 为 
和 5009 260 
$= | 二 = /一 一 一 = 3348( 美 元 ) 
nl 29 
表 7-2 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 中 年 薪 和 培训 计划 情况 的 数据 

: 是 否 参加 i | &, 是 否 参加 
年 薪 (美元 ) 管理 培训 计划 年 薪 (美元 ) 年 薪 (美元 ) 管理 培训 计划 
Xl 三 49 094. 30 是 xll =45 922. 60 是 %2l 三 45 120.90 是 
x2 =53 263.90 是 xi2 =57 268. 40 否 x22 =51 753. 00 是 
sa =49 643. 50 是 X13 =55 688. 80 是 x =54391. 80 奉 
x4 =49 894. 90 是 xi =51 564. 70 香 x24 =50 164. 20 否 
xs =47 .621.60 否 xis =56 188. 20 否 was 三 92 973, 60 否 
xi =55 924. 00 是 wie =51 766. 00 是 wz =50 241. 30 否 
x7 =49 092. 30 是 xiy =52.541. 30 否 %27 =52793. 90 否 
xa =51 404. 40 是 xig =44 980, 00 是 x =50 979. 40 是 
xg =50957. 70 是 xig =51 932. 60 是 xio =55 860. 90 是 
xio =55 109.70 是 xz0 =52973, 00 是 xa0 =57 309. 10 否 





为 了 估计 总 体 中 完成 管理 培训 计划 的 管理 人 员 所 占 比率 p， 我 们 使 用 与 之 对 应 的 样本 比率 8。 令 x 表示 样本 中 
完成 管理 培训 计划 的 管理 人 员 的 人 数 。 表 7-2 中 数据 显示 ，x = 19。 样 本 容量 n=30， 从 而 ; 样本 比率 为 


通过 上 述 计 算 ， 我 们 完成 了 称 为 点 估计 的 统计 过 程 。 我 们 称 样本 均值 为 总 体 均值 的 点 估计 量 (point esti- 
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mator) ， 称 s 为 总 体 标准 差 re 的 点 估计 量 ， 称 样本 比率 为 总 体 比率 p 的 点 估计 量 。x、s 和 5 的 数值 称 为 点 估计 值 
( point estimate) 。 于 是 ， 对 于 由 表 7-2 所 列 出 的 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 ，51 814 美元 是 j 的 点 信 
计 值 ，3 348 美元 是 ao 的 点 估计 值 ,0.63 是 p 的 点 信 计 值 。 表 7-3 总 结 了 这 些 样 本 结果 ， 并 是 将 点 估计 值 与 总 体 参 
数 的 真 值 做 了 对 比 。 


表 7-3 30 名 管理 人 员 组 成 的 简单 随机 样本 中 点 估计 值 的 小 结 








总 体 参 数 参数 值 点 估计 量 点 估计 值 
/一 一 年 薪 的 总 体 均值 51 800 美元 * 一 一 年 新 的 样本 均值 51 814 美元 
一 一 年 薪 的 总 体 标准 差 4 000 美元 :一 一 年 薪 的 样本 标准 差 3 348 美元 
一 一 已 完成 管理 培训 计划 的 总 体 比率 0. 60 一 一 已 完成 管理 培训 计划 的 样本 比率 0. 63 


从 表 7-3 可 见 ， 点 估计 值 与 总 体 参数 的 真 值 在 某 种 程度 上 是 有 差异 的 。 这 个 差异 是 可 以 预期 的 ， 因 为 在 进行 
点 估计 时 用 的 是 来 自 总 体 的 样本 而 不 是 对 整个 总 体 的 普查 。 在 下 一 章 中 ， 我 们 将 说 明 如 何 构造 区 间 估 计 以 便 提供 
关于 点 估计 值 与 总 体 参数 差异 大 小 的 信息 。 


7. 3.1 应 用 中 的 建议 


本 书 的 其 余部 分 大 都 是 关于 统计 推断 的 内 容 ， 点 估计 是 统计 推断 的 一 种 形式 。 我 们 使 用 样本 统计 量 对 总 体 参 
数 进行 推断 。 当 根据 样本 对 总 体 进行 推断 时 ,抽样 总 体 和 目标 总 体 之 间 具 有 密切 的 对 应 是 非常 重要 的 。 目 标 总 体 
(target population) 是 指 我 们 想 要 推断 的 总 体 ， 抽 样 总 体 是 指 实际 抽取 样本 的 总 体 。 本 节 我 们 描述 了 从 EAI 管理 者 
总 体 中 抽取 简单 随机 样本 的 过 程 ， 并 且 对 这 一 总 体 的 特征 进行 点 估计 ， 因 此 抽样 总 体 与 目标 总 体 是 同一 个 ， 这 正 
是 我 们 所 期 望 的 。 但是， 在 其 他 情形 下 ， 并 不 总 是 容易 得 到 具有 密切 对 应 的 抽样 总 体 和 目标 总 体 。 

比如 在 游乐 园 的 例子 中 ， 游 乐园 选取 游客 组 成 一 个 样本 ， 了 解 诸如 游客 的 年 龄 和 游园 时 间 这 样 一 些 特征 。 假 
定 所 有 样本 中 的 个 体 都 选 自 同一 天 ， 而 这 天 仅 对 某 个 企业 的 员工 开放 。 那 么 ， 抽 样 总 体 应 该 由 该 企业 的 雇员 及 其 
家 庭 成 员 构 成 。 如 果 我 们 想 要 推断 的 目标 总 体 是 茶 年 夏季 时 公园 的 游客 ,那么 我 们 面 对 的 抽样 总 体 与 目标 总 体 存 
在 显著 差异 。 在 这 种 情形 下 ， 我 们 对 所 做 的 点 估计 的 有 效 性 产生 质疑 。 公 园 管理 者 必须 明确 取 自 某 一 天 的 样本 是 
否 可 以 看 作 目 标 总 体 的 一 个 代表 。 

总 之 ， 当 利用 样本 去 推断 总 体 时 ， 我们 应 该 确保 所 设计 的 研究 中 抽样 总 体 与 目标 总 体 是 高 度 一 致 的 。 良 好 的 
判断 是 合理 应 用 统计 方法 的 基础 。 





方法 b. 求 被 划分 为 高 风险 的 基金 所 占 比 率 的 点 估计 。 


c, 求 低 于 平均 风险 率 的 基金 所 占 比 率 的 点 估计 。 
16. 从 美国 50 岁 及 以 上 的 成 人 中 选取 426 人 组 成 一 个 

样 林 ;询问 他 们 “2012 年 总 统 选举 中 ， 你 最 关心 

的 问题 是 什么 ?” ( 《美国 退休 人 员 协 会 公告 》， 


12. 就 某 一 问题 对 由 150 大 组 成 的 样本 进行 调查 ， 结 果 为 : 
75 人 表示 同意 ，55 人 表示 反对 ，20 人 表示 弃权 。 
a. 总 体 中 表示 同意 的 人 的 比率 的 点 估计 值 是 多 少 ? 
b. 总 体 中 表示 反对 的 人 的 比率 的 点 估计 值 是 多 少 ? 


2012 什 3 月 ) 
应 用 a. 研究 中 的 抽样 总 体 是 什么 ? 
14.《 商 业 周 刊 》 公 布 了 283 支 证 券 投 资 基金 的 信息 b. 受 访 者 中 有 350 人 认为 社会 医疗 保险 是 最 为 重 
(《 商 业 周 刊 》，2004 年 1 月 26 日 )。 这 些 基 金 中 的 要 的 。 试 估计 美国 50 岁 及 以 上 的 成 人 中 认为 社 
40 支 组 成 一 个 样本 ， 存 放 在 数据 集 MutualFund 中 。 会 医疗 保险 最 为 重要 的 人 所 占 的 比率 。 
利用 该 数据 集 回 答 下 列 问 题 。 c. 74% 的 受 访 者 认为 教育 是 最 为 重要 的 。 试 估计 
a. 求 《商业 周刊 》 证 券 投资 基金 中 收费 基金 所 占 认为 教育 最 为 重要 的 受 访 者 有 多 少 人 ? 


比率 的 点 估计 。 d. 受 访 者 中 有 354 人 认为 增加 就 业 是 最 为 重要 的 。 
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试 估计 美国 50 岁 及 以 上 的 成 人 中 认为 增加 就 业 (a) 中 的 抽样 总 体 相 同 吗 ? 假定 你 后 来 获悉 ， 样 
最 为 重要 的 人 所 占 的 比率 。 本 局 限 在 美国 退休 人 员 协 会 成 员 中 。 你 仍然 认为 
e. 在 (b) 和 (qd) 的 推断 中 ， 目 标 总 体 是 什么 ? 与 (b) 和 (d) 中 的 推断 有 效 吗 ? 为 什么 ? 
7.4 抽样 分 布 简介 


在 上 一 节 ， 我们 说 样本 均值 * 是 总 体 均 值 jv 的 点 估计 ,样本 比率 7 是 总 体 比率 p 的 点 估计 。 表 7-2 中 的 30 名 
EAI 管理 人 员 组 成 一 个 简单 随机 样本 , yy 的 点 估计 值 x*=51 814 美元 , p 的 点 估计 和 值 p=0.63。 假定 我 们 选取 另 一 个 
由 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 ， 得 到 如 下 点 估计 值 : 
样本 均值 := 52 670 美元 
样本 比率 :p= 0.70 
注意 ， 得 到 了 不 同 的 志和 五 的 值 。 的 确 ， 不 能 预期 由 30 名 EAI 管理 人 员 组 成 的 第 二 个 简单 随机 样本 与 第 一 个 简单 
随机 样本 所 得 到 的 点 估计 值 相 同 。 
现在 ,假定 将 选取 30 名 管理 人 员 组 成 一 个 简单 随机 样本 的 过 程 一 而 再 再 而 三 地 进行 下 去 ， 每 次 都 计算 入 
的 值 。 表 7-:4 是 500 个 这 样 的 简单 随机 样本 所 得 到 的 部 分 结果 。 表 7-5 给 出 的 是 500 个 x* 值 的 频数 及 频率 分 布 。 图 
7-1 是 x 的 相对 频率 直方 图 。 
表 7-4 由 30 名 EAI 管理 人 员 组 成 的 500 个 简单 随机 样本 的 又 和 万 
样本 编号 样本 均值 (x) 比率 (万 样本 编号 样本 均值 () 比率 (万 
1 51 814 0. 63 4 $1 S88 0. $53 
2 52 670 0. 70 i: ' 
3 51780 0. 67 500 531 752 0. 50 


表 7-5 由 30 名 EAI 管理 人 员 组 成 的 500 个 简单 随机 样本 的 X 的 频数 和 相对 频率 


年 薪 均 值 (美元 ) 频数 相对 频率 年 薪 均 值 〈 美 元 ) 频数 相对 频率 
49 500. 00 ~ 49 999. 99 2 0. 004 52 000. 00 ~ 52 499. 99 110 0. 220 
50 000. 00 ~ 50 499. 99 16 0; 032 52 500. 00 ~52 999. 99 54 0. 108 
50 500. 00 ~ 50 999. 99 52 0. 104 53 000. 00 ~ 53 499. 99 26 0.052 
51 000. 00 ~ 51 499. 99 101 0. 202 53 500. 00 ~ 53 999. 99 . 绚 0.012 


51 500. 00 ~ 51 999. 99 133 0. 266 合计 500 1. 000 


在 第 5 章 中 ， 我 们 将 随机 变量 定义 为 对 试验 结果 的 数值 描述 。 如 果 我 们 将 抽取 一 个 简单 随机 样本 的 过 程 看 作 
一 个 试验 ， 则 样本 均值 就 是 对 试验 结果 的 一 个 数值 描述 。 
从 而 ， 样 本 均值 是 一 个 随机 变量 。 因 此 ， 就 像 其 他 随机 变 。 oao0 
量 一 样 , x 有 均值 或 数学 期 望 、 标 准 差 和 概率 分 布 。 在 不 同 的 。“，,。 
简单 随机 样本 中 ,x 的 取 值 也 有 各 种 可 能 的 结果 ， 我 们 称 的 
概率 分 布 为 * 的 抽样 分 布 sample distribution) 。 抽 样 分 布 的 ”时 
知识 和 性 质 使 我 们 能 够 对 样本 均值 与 总 体 均值 的 接近 程 、 雪 0%!5 
度 做 一 个 概率 度量 。 5 0.10 

让 我 们 回 到 图 7-1， 我 们 需要 列举 出 所 有 可 能 的 由 30 名 ows 
管理 人 员 组 成 的 样本 ， 并 计算 每 个 样本 均值 从 而 确定 的 抽 





样 分 布 。500 个 元 值 的 直方 图 是 对 抽样 分 布 的 一 个 近似 。 从 这 | 
个 近似 可 见 ， 分 布 形状 是 钟 形 的 。 我 们 还 注意 到 ， 绝 大 部 分 3 ea 
的 取 值 聚集 在 一 起 ，500 个 x* 值 的 均值 在 总 体 均值 久 =51 800 样本 的 * 值 的 相对 频率 直方 图 


日 ”在 以 下 各 章 资料 里 ， 对 内 容 的 理解 能 力 ， 很 大 程度 上 依赖 于 对 本 章 中 所 介绍 的 抽样 分 布 的 理解 和 使 用 能 力 。 


166 商务 与 经 济 统计 


美元 附近 。 在 下 一 节 ， 我 们 将 更 全 面 地 描述 的 抽样 分 布 的 性 质 。 

样本 比率 的 500 个 值 的 相对 频率 直方 图 汇总 在 图 7-2 中 。 与 # 
的 情形 一 样 , 5 是 一 个 随机 变量 。 如 果 从 总 体 中 将 容量 为 30 的 所 有 
可 能 的 样本 都 选 出 ， 并 且 计算 每 个 样本 的 互 值 ， 所 得 到 的 概率 分 布 
叫 五 的 抽样 分 布 。 图 7-2 是 500 个 样本 的 样本 比率 的 相对 频率 直方 
图 ， 它 给 出 了 5 的 抽样 分 布 的 一 般 外 形 特点 。 

在 实践 中 ,我 们 只 从 总 体 中 抽取 一 个 简单 随机 样本 。 在 本 节 我 ， 村 
们 将 抽样 过 程 简单 地 重复 进行 了 500 次 ， 仅 仅 是 为 了 说 明 可 能 取得 
多 种 不 同 的 样本 ， 而 且 不 同 的 样本 得 到 的 样本 统计 量 * 和 5 的 值 也 
是 不 尽 相同 的 。 任 何 特定 的 样本 统计 量 的 概率 分 布 称 为 该 统计 量 的 
抽样 分 布 。 我 们 将 在 第 7. 5 节 说 明 z 的 抽样 分 布 的 特征 ， 在 第 7.6 
节 说 明 互 的 抽样 分 布 的 特征 。 


7.5 X 的 抽样 分 布 





7-2 500 个 样本 容量 为 30 的 简单 随机 样本 
在 前 一 节 中 ， 我 们 说 样本 均值 * 是 一 个 随机 变量 ， 称 它 的 概率 的 5 值 的 相对 频率 直方 图 
分 布 为 x 的 抽样 分 布 。 






本 节 描 述 * 的 抽样 分 布 的 性 质 。 与 我 们 研究 的 其 他 概率 分 布 一 样 ，x* 的 抽样 分 布 有 均值 或 数学 期 望 、 标 准 差 
以 及 形状 或 形态 特征 。 我 们 首先 考虑 x 所 有 可 能 值 的 均值 ， 即 * 的 数学 期 望 。 


7. 5.1 XX 的 数学 期 望 

在 EAI 抽样 问题 中 ， 我 们 看 到 不 同 的 简单 随机 样本 得 出 的 样本 均值 * 是 不 同 的 。 因 为 随机 变量 x 可 能 有 许多 
不 同 的 值 ， 所 以 我 们 关心 的 是 由 大 量 简单 随机 样本 产生 的 x 的 所 有 可 能 值 的 均值 。 随 机 变量 x 的 均值 是 x 的 数学 
期 望 。 令 E(x) 表示 的 数学 期 望 , 表示 我 们 抽取 简单 随机 样本 时 总 体 的 均值 。 对 简单 随机 抽样 ， 可 以 证 明 
E(x) 与 未 相 等 。 





该 结果 说 明 ， 对 于 简单 随机 抽样 ,x 的 抽样 分 布 的 均值 或 数学 期 望 等 于 总 体 均值 。 在 第 7.1 节 ， 我们 看 到 EAI 
管理 人 员 总 体 的 年 薪 均 值 凡 = 51 800 美元 。 于 是 ,根据 式 (7-1) ，EAI 研究 中 样本 均值 所 有 可 能 值 的 均值 也 等 于 
51 800 美元 。 | 

当 点 估计 量 的 期 望 值 等 于 总 体 参数 时 ， 我 们 称 这 个 点 估计 量 是 无 偏 的 (unbiased)。 由 式 (7-1) 可 见 ,* 是 


7. 5.2 X 的 标准 差 
采用 以 下 记号 ,我 们 给 出 x 的 抽样 分 布 的 标准 差 的 定义 。 


昌 的 数学 期 望 等 于 抽样 总 体 的 均值 。 
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0; 一 一 x 的 标准 差 
0 一 一 总 体 标准 差 
n 一 一 样本 容量 
NN 一 总 体 容量 
可 以 证 明 ,* 的 标准 差 公 式 与 总 体 是 否 有 限 有 关 。 下 面 给 出 * 的 标准 差 的 两 个 公式 。 





比较 式 (7-2) 中 的 两 个 公式 ， 我 们 看 到 对 有 限 总 体 需要 系数 v(NW-m)/CNW-1) ， 而 无 限 总 体 则 不 需要 该 系 
数 。 通 常 称 该 系数 为 有 限 总 体 修正 系数 〈finite population correction factor)。 在 许多 实际 抽样 中 ， 我 们 发 现 虽然 总 
体 是 有 限 的 ,但 容量 很 “大 ” ， 相 对 而 言 样 本 容量 很 “小 ”， 这 时 有 限 总 体 修 正 系数 WN-n)A(N-1) 趋 近 于 1， 
可 以 忽略 有 限 总 体 * 的 标准 差 与 无 限 总 体 x 的 标准 差 之 间 的 差别 。 于 是 ， 虽然 总 体 有 限 ,但 可 以 用 Go: =eoyVn 作 为 
x 的 标准 差 的 一 个 很 好 的 近似 。 由 此 观察 可 以 得 出 下 面 计算 * 的 标准 差 的 一 般 指导 方针 或 经 验 法 则 。 





当 nAN >0.05 时 ,使 用 式 (7-2) 中 有 限 总 体 的 公式 计算 o;。 除 非特 别 说 明 ， 本 书 中 我 们 假定 总 体 容量 足够 
大 ”, 使 得 nAN<0.05， 可 以 用 式 (7-3) 计算 o;。° 

为 了 计算 o;， 必 须 已 知 总 体 标准 差 o4。 为 了 更 加 强调 o; 与 o 的 不 同 ,我们 称 * 的 标准 差 o; 为 均值 的 标准 误差 
(standard error)“。 一 般 地 ， 标 准 误差 指 的 是 点 估计 量 的 标准 差 。 随 后 我 们 将 看 到 ， 均 值 的 标准 误差 有 助 于 确定 
样本 均值 与 总 体 均 值 的 偏离 程度 。 回 到 例子 EAI 的 问题 中 ， 对 于 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 ， 计 算 
均值 的 标准 误差 。 

在 第 7.1 节 ， 我 们 看 到 总 体 由 2 500 名 EAI 管理 人 员 组 成 ， 年 薪 的 标准 差 o =4000 美元 。 这 时 ， 总 体 是 有 限 
的 ，N =2500。 当 样本 容量 为 30 时 ， 有 n/N =30/2 500 =0. 12。 因 为 样本 容量 小 于 总 体 容量 的 5% ， 所 以 可 以 忽略 
有 限 总 体 修正 系数 ， 采 用 式 (7-3) 计算 标准 误差 。 





前 面 关 于 x* 的 抽样 分 布 的 数学 期望 和 标准 差 的 结论 ， 适用 于 所 有 的 总 体 。x 的 概率 分 布 的 形式 或 者 形态 是 确 
定 * 抽 样 分 布 特征 的 最 后 一 步 。 考 虑 以 下 两 种 情形 : (1) 总 体 服从 正 态 分 布 ; (2) 总 体 不 服从 正 态 分 布 。 

总 体 服从 正 态 分 布 ， 在 许多 情况 下 ， 有 理由 假设 我 们 抽取 随机 样本 的 总 体 服 从 正 态 分 布 或 近似 服从 正 态 分 
布 。 当 总 体 服 从 正 态 分 布 时 ， 在 任何 样本 容量 下 x 的 抽样 分 布 都 是 正 态 分 布 。 


问题 21 中 表明 ， 当 n/N<0.05 时 ， 有限 总 体 修正 系数 对 os 的 值 几乎 不 产生 影响 。 
”日 在 统计 推断 中 ,标准 误 差 指 的 是 点 估计 量 的 标准 差 。 ; 
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OR, 中 心 极 限定 理 在 * 抽 样 分 布 中 的 应 用 如 下 所 述 





vs frp 
" -全 1 人 E 3 We bs re -A 
bi a a 局 | r= De HN pe i's 各 A lw 全 | 
= 7 eh dt 一 = ea HP、 A MW 二 SPs 和 RE Hl A J 


图 7-3 说 明 中 心 极限 定理 对 于 三 个 不 同 总 体 的 作用 ， 每 列 对 应 于 一 个 总 体 。 最 上 面 的 图 显示 总 体 都 是 非 正 态 
的 。 总 体 工 服 从 均匀 分 布 。 总 体 开 经 常 被 称 为 免 耳 形 分 布 ， 它 是 对 称 的 ， 但 是 绝 大 部 分 值 落 在 分 布 的 尾 端 。 总 体 
亚 的 形状 与 指数 分 布 相似 ， 是 右 偏 的 。 

图 7-3 最 后 三 行 中 的 图 给 出 了 当 样 本 容量 分 别 为 n=2， 
n=5 和 n=30 时 抽样 分 布 的 形状 。 当 样本 容量 为 2 时 ， 我 们 
看 到 每 个 抽样 分 布 的 外 形 开始 呈现 出 与 总 体 分 布 不 同 的 外 形 。 
当 样 本 容量 为 5 时 ,我 们 看 到 与 总 体 [ 和 总 体 工 所 对 应 的 抽 
样 分 布 的 形状 都 开始 看 上 去 与 正 态 分 布 的 形状 类 似 。 与 总 体 
亚 所 对 应 的 抽样 分 布 的 形态 虽然 开始 看 上 去 与 正 态 分 布 的 形 
状 类 似 , 但 仍 呈 现 右 偏 。 最 后 ， 当 样本 容量 为 30 时 ， 我 们 看 
到 三 个 抽样 分 布 的 形态 都 近似 于 正 态 分 布 。 

从 应 用 者 的 角度 看 ， 样 本 容量 应 该 达到 多 大 时 ， 我 们 才 
可 以 应 用 中 心 极限 定理 ? 样本 容量 应 该 达到 多 大 时 ， 才 能 够 
假定 抽样 分 布 的 形态 是 近似 正 态 的 呢 ? 统计 研究 人 员 通 过 分 
析 各 种 总 体 不 同样 本 容量 下 x 的 抽样 分 布 ， 对 该 问题 进行 了 
研究 。 在 一 般 的 统计 实践 中 ， 对 于 大 多 数 应 用 ， 假 定 当 样本 
容量 大 于 或 等 于 30 时 ,x 的 抽样 分 布 可 用 正 态 分 布 近似 。 当 
总 体 是 严重 偏 态 或 者 出 现 异常 点 时 ， 可 能 需要 样本 容量 达到 
50。 最 后 ， 当 总 体 为 离散 型 时 ， 正 态 近 似 中 所 需 样本 容量 一 
般 依 赖 于 总 体 的 比例 。 在 第 7.6 节 中 研究 5 的 抽样 分 布 时 ， 
我 们 会 对 该 问题 进行 更 深入 的 讨论 。 


7. 5.4 EAI 问题 中 x 的 抽样 分 市 

让 我 们 回 到 EAI 问题 中 ， 先 前 给 出 了 E(x) =51 800， 
oz =730,3。 从 这 个 角度 上 讲 ， 我 们 没有 关于 总 体 分 布 的 任何 
信息 ， 总 体 可 能 是 也 可 能 不 是 正 态 分 布 。 如 果 总 体 分 布 是 正 
态 分 布 ， 则 的 抽样 分 布 是 正 态 分 布 ; 如 果 总 体 分 布 不 是 正 
态 分 布 ， 由 于 我 们 使 用 的 是 30 名 管理 人 员 组 成 的 一 个 简单 随 
机 样本 ,根据 中 心 极限 定理 ， 我 们 得 到 结论 : x 的 抽样 分 布 
可 以 用 正 态 分 布 近似 。 在 任何 一 种 情况 下 ， 我 们 都 很 容易 地 
得 到 结论 : zx 的 抽样 分 布 可 以 用 图 7-4 中 的 正 态 分 布 描述 。 


7. 5.5 Xx 的 抽样 分 布 的 实际 值 





5 的 值 的 什 的 什 





图 7-4 30 名 管理 人 员 的 简单 随机 样本 
当 抽 取 一 个 简单 随机 样本 ， 用 样本 均值 * 的 值 估计 总 体 年 薪 均 值 * 的 抽样 分 布 


均值 jk 时 ， 我们 不 能 希望 样本 均值 恰好 与 总 体 均值 相等 。 我 们 对 x 的 抽样 分 布 感 兴趣 的 实际 原因 是 ， 它 可 以 用 来 

提供 样本 均值 x 的 值 和 总 体 均 值 的 值 之 间 差 异 的 概率 信息 。 为 了 证 明 这 一 用 途 ， 我 们 仍 回 到 EAI 问题 中 去 。 
假定 人 事 部 经 理 认 为 当 样本 均值 在 总 体 均 值 附近 +500 美元 以 内 时 ,样本 均值 是 总 体 均值 的 一 个 可 接受 的 估 

计 值 。 当 然 ， 并 不 能 确保 样本 均值 在 总 体 均值 附近 + 上 500 美元 以 内 = 事实 上 ， 表 7-5 和 图 7-1 显示 500 个 样本 均值 
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中 有 一 部 分 与 总 体 均值 的 差异 是 在 2 000 美元 以 上 的 。 以 概率 的 术语 来 讲 ， 人 事 部 经 理 关心 的 是 如 下 问题 :根据 
30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 ， 得 到 的 样本 均值 在 总 体 均值 附近 500 美元 以 内 的 概率 有 多 大 ? 

我 们 已 经 确定 了 x 的 抽样 分 布 的 性 质 〈 见 图 7:4) ， 可 以 用 该 分 布 回答 概率 问题 。z 的 抽样 分 布 如 图 7-5 所 示 。 
当 总 体 均值 为 51 800 美元 ， 人 事 部 经 理 关心 的 是 样本 均值 介 于 
51 300 ~ 52 300 的 概率 。 图 7-5 所 示 的 抽样 分 布 中 阴影 部 分 的 面 x 的 抽样 分 布 
积 恰好 给 出 了 这 个 概率 值 。 由 于 抽样 分 布 是 正 态 分 布 ， 均 值 为 
51 800 美元 ， 标 准 差 为 730. 3 美元 ， 我 们 用 标准 正 态 概率 表 来 
查找 此 概率 或 面积 。 a 

我 们 首先 计算 区 间 右 端点 (52 300) 对 应 的 z 值 ， 并 通过 ?5130099 
查 表 得 到 曲线 下 方 该 点 左 侧 区 域 ( 左 尾部 ) 的 面积 。 然 后 ， 我 0 La 
们 再 计算 区 间 左 端点 (51 300) 对 应 的 z 值 ， 并 通过 查 表 得 到 51300 S1800 52300 
曲线 下 方 该 点 左 侧 区 域 .( 左 尾部 ) 的 面积 。 从 后 者 中 减 去 前 。 四 7.s 样本 岁入 在 总 株 均 信 附 近 生 500 美元 
者 ， 即 得 到 所 求 概率 。 以 内 的 概率 

当 *=52300 美元 时 ， 有 









:=730.30 


P(51 300<7x<52 300) 


a 


_ 52 300 — 51 800 

ws 

查 标准 正 态 概率 分 布 表 ， 得 到 累计 概率 (z=0. 68 左 侧 的 面积 ) 等 于 0.7517。 
当 =51 300 美元 时 ， 有 


= 0.68 


2 


,2 51300 -51800 _ 
”i 


曲线 下 z = -0.68 左 侧 的 面积 为 0.2483。 于 是 , P151 300 <x<52300) = Pilz 大 0.68| -Plz<-0.68) =0.7517 - 
0.2483 = 0.5034 。 

土 述 计 算 说 明 ， 由 30 名 了 AI 管理 人 员 组 成 的 一 个 简单 随机 样本 中 ， 以 0.503 4 的 可 靠 性 保证 样本 均值 x 在 总 
体 均值 附近 三 500 美元 以 肉 ， 即 样本 均值 二 与 总 体 均 值 人 = 51 800 美 差异 大 于 500 美元 的 概率 为 1 -0.5034 = 
0.4966。 换 而 言 之 , 由 30 名 EAI 管理 人 员 组 成 的 简单 随机 样本 中 ， 大 约 有 50:50 的 机 会 使 得 样本 均值 在 所 允许 的 
500 美元 范围 以 内 ， 也 许 应 该 考虑 增加 样本 容量 。 我 们 通过 考虑 样本 容量 与 抽样 分 布 的 关系 来 研究 这 一 可 能 性 ” 。 


7.5.6 样本 容量 与 xX 的 抽样 分 布 的 关系 

假定 在 EAI 抽样 问题 中 ， 我 们 最 初 选取 的 不 是 30 名 EAI 管理 人 员 而 是 100 名 EAI 管理 人 员 组 成 的 一 个 简单 随 
机 样本 。 直 觉 上 ， 似 乎 样本 容量 越 大 提供 的 数据 越 多 ， 用 = 100 时 的 样本 均值 估计 总 体 均值 应 该 比 用 n=30 的 样 
本 均值 估计 总 体 均 值 更 好 。 为 了 说 明 更 好 的 程度 ， 我 们 考虑 样 
本 容量 与 * 的 抽样 分 布 的 关系 。 

首先 注意 到 E(x*) = 人 与 样本 容量 无 关 ,* 所 有 可 能 值 的 均值 
等 于 总 体 均值 ， 与 样本 容量 n 无 关 。 然 而， 均值 的 标准 误差 es = 
07Yn 与 样本 容量 的 平方 根 有 关 。 当 样本 容量 增加 时 ， 均 值 的 标 
准 误差 os 减 小 。 当 n=30 时 ，EAI 问题 中 均值 的 标准 误差 为 
730.3， 然 而 当 样本 容量 增加 到 ”= 100 时 ， 均 值 的 标准 差 减少 到 


— 0. 68 





3 


和 四 S1800 
Tt 图 7-6 n=30 和 n=100 时 EAI 管 理 人 员 组 成 
n=30 和 元 =100 时 的 抽样 分 布 如 图 7-6 所 示 。 由 于 n=100 时 的 简单 随机 样本 中 抽样 分 布 的 对 比 


日 x 的 抽样 分 布 可 用 于 提供 样本 均值 3 与 总 体 均值 jy 的 接近 程度 的 概率 信息 。 
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的 抽样 分 布 有 更 小 的 标准 误差 ,x 的 值 具有 更 小 的 变异 性 ， 比 n=30 时 3 的 值 更 接近 总 体 均 值 。 
对 于 由 100 名 EAI 管理 人 员 组 成 的 一 个 简单 随机 样本 ， 此 时 n=100,， 利 用 * 的 抽样 分 布 可 以 计算 样本 均值 在 
总 体 均 值 附近 500 美元 以 内 的 概率 。 由 于 抽样 分 布 是 正 态 的 ， 
均值 为 51 800 美元 ， 标 准 误差 为 400 美元 ， 由 标准 正 态 概率 表 可 
查 得 此 概率 。 村 
当 %=52 300 美元 时 ( 见 图 7-7)， 有 x 的 抽样 分 布 
,= 52300 -51800 _ 

400 






li 25 P(51 300<x<52 300) =0.788 8 


查 标准 正 态 概率 分 布 表 ,得 到 与 z=1.25 对 应 的 累计 概率 为 
0. 894 4。 





当 元 =51300 美元 时 5 
51 300 — 51 800 yi 
zZ 二 WT = — 1. 25 $1 300 52 300 
与 z= -1.25 相对 应 的 累计 概率 为 0. 1056。 于 是 , P151 300 三 ”图 7-7 样本 容量 n=100 时 EAI 管理 人 员 组 成 的 
a _ 和 简单 随机 样本 的 样本 均值 沙 在 总 体 均值 
元 过 32 300| = Plz<1.25} -Plz<-1.25| =0.8944 -0.1056 WT OD 0 Ee 


0.788 8 。 因 而 ， 随 着 样本 容量 从 30 名 EAI 管理 人 员 增 加 到 100 
名 ， 样 本 均值 在 总 体 均值 附近 + 上 500 美元 以 内 的 概率 从 0. 503 4 增加 到 0. 788 8。 

该 讨论 的 重点 是 随 着 样本 容量 的 增加 ， 均 值 的 标准 误差 在 减少 。 结 果 ， 样 本 容量 越 大 ， 样 本 均值 落 在 总 体 均 
值 附近 某 一 特定 范围 内 的 概率 也 越 大 。 


1. 我 们 基于 总 体 均 值 凡 =51 800 美元 和 总 体 标准 差 rr =4000 美元 是 已 知 的 事实 ， 在 EAI 问题 中 得 到 元 的 抽样 
分 布 时 5 然而 ， 用 于 确定 元 的 抽样 分 布 所 需要 的 总 体 均 值 几 和 总 体 标 准 差 er 的 值 通常 是 未 知 的 。 在 第 8 
章 ， 我 们 将 给 出 当 太 和 未 知 时 如 何 利用 样本 均值 元 和 样本 标准 差 s。 

2. 中 心 极限 定理 的 理论 证 明 中 ， 要 求 样本 中 的 观察 值 是 独立 的 5 自 无 限 总 体 和 有 限 总 体 的 有 放 回 抽样 所 得 到 
的 样本 ， 都 是 满足 该 条 件 的 。 虽 然 中 心 极 限定 理 没 有 直接 要 求 自 有 限 总 体 的 抽样 是 有 放 回 的 ， 但 是 一 般 统 
计 应 用 中 只 有 当 总 体 容 量 较 大 的 情形 下 才 使 用 中 心 极限 定理 的 结果 。 






方法 简单 随机 样 未 。 


18. 总 体 均 值 为 200、 标 准 差 为 50。 从 中 抽取 n=100 ® ee 60 时 ， 简 述 * 的 
a 逢 ’ 值 % 十 7 总 © 了 se 
a a b.、 当 简单 随机 样本 的 样本 容量 为 120 时 ,的 抽样 
人 分 布 如 何 变化 ? 


b. % 的 标准 差 是 多 少 ? 
c. 无 的 抽样 分 布 是 什么 ? 
d. 的 抽样 分 布 说 明 什 么 ? 
20. 假定 总 体 标 准 差 =25， 计 算 元 =50，100，150 和 


c. 随 着 样本 容量 的 增加 ， 你 认为 二 的 抽样 分 布 通 
常 发 生 怎 样 的 变化 ? 这 看 上 去 合乎 还 辑 吗 ?为 
什么 ? 

二 

全 可 县 昌 生 记 短 归 多 周 (《 巴 伦 周刊 》，2008 年 2 月 18 日)。 假 定 由 全 体 
失业 者 组 成 的 总 体 中 ， 失 业 时 间 的 总 体 均 值 是 17.5 

应 用 周 ， 总 体 标 准 差 为 4 周 。 假 定 你 想 要 选取 50 名 失业 

22、BAI 抽样 问题 中 ， 假 定 由 60 名 管理 人 员 组 成 一 个 人 员 组 成 一 个 随机 样本 进行 进一步 的 研究 。 


28. 


a. 求 的 抽样 分 布 ， 其 中 太 是 50 名 失业 人 员 的 样 
本 均值 。 

b. 50 名 失业 人 员 组 成 的 简单 随机 样本 中 ， 样 本 二 
” 值 落 在 总 体 均值 附近 土 1 周 以 内 的 概 六 是 多 少 ? 

c. 50 名 失业 人 员 组 成 的 简单 随机 样本 中 ， 样 本 均 
值 落 在 总 体 均 值 附近 土 1/2 周 以 内 的 概率 是 
多 少 ? 


. 汽车 保险 费 的 年 均值 为 939 美元 (CNBC，2006 年 


2 月 23 日 )。 假 定 标 准 差 o =245 美元 。 

a。 由 汽车 保险 政策 组 成 一 个 简单 随机 样本 ， 对 以 
下 样本 容量 ， 分 别 计算 样本 均值 在 总 体 均值 附 
近 圭 25 美元 以 内 的 概率 是 多 少 ? n = 30，50， 
100 和 400。 

b. 当 试 图 估计 总 体 均值 时 ， 大 样本 的 好 处 是 什么 ? 

男性 高 尔 夫 球员 的 平均 得 分 为 95， 女 性 高 尔 夫 球员 

的 平均 得 分 为 106(《 高 尔 夫 文 摘 》，2006 年 春 ) 。 以 

这 些 值 作为 男性 球员 和 女性 球员 的 总 体 均 值 ， 并 假 

定 二 者 的 总 体 标准 差 均 为 go =14。 选取 30 名 男 球员 


7.6 万 的 抽样 分 布 
样本 比率 5 是 总 体 比 率 p 的 点 估计 。 样 本 比率 的 计算 公式 为 
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组 成 一 个 样本 ， 选 取 45 名 女 球员 组 成 另 一 个 样本 。 

a. 求 男 性 球员 的 元 的 抽样 分 布 。 

b. 对 于 男性 球员 样本 ， 样 本 均值 在 总 体 均 值 附 近 
+3 以 内 的 概率 是 多 少 ? 

c. 对 于 女性 球员 样本 ， 样 本 均值 在 总 体 均值 +3 以 
内 的 概率 是 多 少 ? 

d. 在 b 和 ec 中 ， 哪 种 情形 下 样本 均值 在 总 体 均 值 
附近 土 3 以 内 的 概率 更 大 ? 为 什么 ? 


30. 4 000 名 座 员 组 成 一 个 总 体 ， 从 中 选取 40 名 雇员 组 


成 一 个 简单 随机 样本 ， 用 于 估计 平均 年 疮 。 

a. 在 计算 均值 的 标准 误差 时 ， 你 是 否 要 用 有 限 总 

体 修正 系数 ? 为 什么 ? 

若 总 体 标准 差 rw =8.2 年 ,计算 均值 的 标准 误 

差 。 计 算 中 分 别 使 用 有 限 总 体 修 正 系 数 和 不 用 

有 限 总 体 修 正 系数 这 两 种 方法 。 当 n/N 专 0.05 

时 ， 忽 略 有 限 总 体 修 正 系 数 的 理由 是 什么 ? 

c, 雇员 年 龄 的 样本 均值 落 在 总 体 均 值 附近 土 2 年 
以 内 的 概率 为 多 少 ? 


式 中 ,x 代表 样本 中 具有 感 兴趣 特征 的 个 体 的 个 数 ; n 代表 样本 容量 。 






为 了 确定 样本 比率 5 与 总 体 比率 的 接近 程度 ， 我 们 需要 了 解 的 抽样 分 布 的 性 质 : 5 的 数学 期 望 、5 的 标准 


差 以 及 F 的 抽样 分 布 的 形状 或 形态 。 


7.6.1 
5 的 数学 期 望 是 万 的 所 有 可 能 值 的 均值 ， 它 与 总 体 比率 相等 。 







的 数学 期 望 


由 于 E(B) =p， 所 以 P 是 的 无 偏 估计 量 。 在 第 7.1 节 中 


正如 第 7.4 节 中 所 述 ， 样本 比率 5 是 一 个 随机 变量 ， 称 它 的 概率 分 布 为 样本 比率 5 的 抽样 分 布 。 





我 们 已 经 注意 到 ，EAI 的 总 体 比 率 p =0.6， 其 中 p 


表示 管理 人 员 中 参加 公司 管理 培训 计划 的 总 体 比 率 。 从 而 ， 在 EAI 抽样 问题 中 , 三 的 数学 期 望 为 0.6。 


7.6:% 万 的 标准 这 





与 样本 均 


值 z 的 标准 差 一 样 ， 我 们 发 现 的 标准 差 与 总 体 是 有 限 还 是 无 限 有 关 。 下 面 给 出 计算 5 的 标准 差 的 
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两 个 公式 。 








= Be Pe nm 本 Sw -ww 四 人 = = E = 


比较 式 (7-5) 中 的 公式 ,可 见 不 同 之 处 仅仅 在 于 是 否 使 用 有 限 总 体 修正 系数 VN-n)A(N -1)。 

与 样本 均值 * 的 情形 一 样 ， 车 有 限 总 体 的 总 体 容量 相对 于 样本 容量 足够 大 ， 有 限 总 体 与 无 限 总 体 在 表达 式 上 
的 不 同 可 以 忽略 不 计 。 我 们 遵循 与 样本 均值 过 的 标准 差 相同 的 经 验 法 则 ， 即 : 如 果 总 体 是 有 限 的 并 且 n/N<0. 05 
时 ， 我 们 采用 公式 0; = Vp(1 -p)/n; 然而 ， 如 果 总 体 是 有 限 的 但 n/N >0.05 时 ， 则 需要 采用 有 限 总 体 修正 系数 。 
除非 特别 说 明 ， 本 书 中 我 们 假定 总 体 容 量 相对 于 样本 容量 很 大 ， 从 而 无 须 使 用 有 限 总 体 修正 系数 。 

在 第 7.5 节 中 ， 我们 称 * 的 标准 差 为 均值 的 标准 误差 。 一 般 ， 标 准 误差 这 一 术语 专 指点 估计 量 的 标准 差 。 因 
此 ， 对 于 比率 我 们 称 5 的 标准 差 为 比率 的 标准 误差 。 下 面 ， 仍 考虑 EAI 公司 的 例子 ， 计 算 由 30 名 EAI 管理 人 员 组 
成 的 简单 随机 样本 中 比率 的 标准 误差 。 

” ”在 EAI 研究 中 ,我 们 已 知 管理 人 员 中 参加 管理 培训 计划 的 总 体 比率 p=0.6。 由 于 n/N=30/2 500 =0.012， 从 





7. 6.3 万 的 抽样 分 布 的 形态 


现在 ， 我 们 已 经 知道 了 5 的 抽样 分 布 的 均值 和 标准 差 。 最 后 一 步 是 确定 抽样 分 布 的 形状 或 形态 。 样 本 比率 为 
P=x/n。 对 于 一 个 来 自 容量 很 大 的 总 体 的 简单 随机 样本 而 言 ， 样 本 中 具有 被 关注 特征 的 个 体 数 目 x 是 一 个 服从 二 
项 分 布 的 随机 变量 。 由 于 n 是 一 个 常数 ， 因 此 xm 的 概率 等 于 x 的 二 项 概率 。 这 就 意味 着 : 5 的 抽样 分 布 也 是 一 
个 离散 型 的 概率 分 布 ， 并且 x/n 取 每 个 值 的 概率 等 于 x 的 概率 。 

在 第 6 章 中 已 经 证 明 ， 当 样本 容量 足够 大 并 且 满 足下 面 两 个 条 件 时 : 

7 三 3 和 mL-P) 三 5 
二 项 分 布 可 以 用 正 态 分 布 来 近似 。 假 定 上 述 两 个 条 件 都 满足 ， 则 样本 比率 =x/n 中 x 和 


概率 分 布 可 以 用 正 态 分 布 
来 近似 。 由 于 是 一 个 常数 ， 万 的 抽样 分 布 也 可 以 用 正 态 分 布 来 近似 。 这 一 近似 关系 如 下 ， 








在 实际 应 用 中 ， 当 对 总 体 比率 进行 估计 时 ， 我 们 发 现 样本 容 
量 几乎 总 是 足够 大 ， 从 而 允许 对 的 抽样 分 布 进行 正 态 近似 。 

回忆 EAI 抽样 问题 中 ,我 们 已 经 知道 : 参加 培训 计划 的 管理 
人 员 的 总 体 比率 p =0.6。 对 于 一 个 容量 为 30 的 简单 随机 样本 ， 
mp=30 x0.6=18, n(1-p) =30 x0.4=12。 因 此 , 5 的 抽样 分 布 
可 以 用 形 如 图 7-8 的 正 态 分 布 近似 。 : 
7. 6.4 万 的 抽样 分 布 的 实际 应 用 

5 的 抽样 分 布 的 应 用 价值 在 于 ， 它 可 以 对 样本 比率 与 总 体 比率 
的 差异 程度 提供 概率 信息 。 例 如 ， 假 定 在 EAI 问题 中 人 事 部 经 理 图 7-8 EAI 管理 人 员 中 参加 管理 培训 
需要 知道 得 到 的 5 值 在 管理 人 员 参 加 培训 计划 的 总 体 比 率 p 附近 计划 的 比率 万 的 抽样 分 布 
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+0.05 以 内 的 概率 是 多 少 ? 即 ， 样 本 比率 5 介 于 0.55 ~ 0. 65; 的 概率 是 多 大 ? 图 7-9 中 阴影 部 分 的 面积 即 为 所 求 概 
率 。 既 然 了 的 抽样 分 布 可 用 均值 为 0.6， 标 准 误差 wm 
=0. 0894 的 正 态 分 布 近 似 ， 我 们 可 以 在 Excel 中 用 函 






数 NORM. DIST 完成 这 一 计算 。 在 Excel 工作 敌 的 单元 5 的 抽 梯 分布 上 ey 
格 中 输入 公式 “= NORM. DIST (0; 65，0.60，0. 089 局 
4，TRUE)” 便 可 求 得 与 了 =0.65 相对 应 的 累积 概率 值 P(F<055<02877[ 时 4 on 0 6 


0.7120。 在 Excel 工作 秒 的 单元 格 中 输入 公式 “ = 
NORM. DIST (0. 55，0.60，0.0894，TRUE) ” 便 可 求 # | 
得 与 了 = 0. 55 相对 应 的 累积 概率 值 0. 288 0。 因 此 ， 样 A 


rk 0.65 5 
本 比率 pp 在 区 间 (0.55，0.65) 的 概率 是 0.712 0 - z 
0. 288 0 =0.4240。 图 7-9 5 的 值 介 于 z=0.55 到 z=0.65 之 间 的 概率 


我 们 发 现 对 应 于 P=0.65 的 标准 正 态 随机 变量 z= (0. 65 -0.6)/0.089 4=0.56。 查 标准 正 态 概率 表 ， 可 得 与 
z=0.56 相对 应 的 累积 概率 为 0.7123。 类 似 地 ， 当 =0.55 时, z=(0.55 -0.6)X0.0894 = -0.56。 查 标准 正 态 概 
率 表 ， 得 到 与 := -0. 56 相对 应 的 累积 概率 为 0.2877。 因 此 ， 选 取 一 个 样本 ， 其 样本 比率 5 在 总体 比率 p 附近 
0. 05 以 内 的 概率 是 0.7123 -0.2877 =0.4246。 

如 果 我 们 考虑 将 样本 容量 增加 到 n=100， 则 比率 的 标准 误差 为 


/0. 60(1 — 0.60) 
O05 = 一 


对 由 100 名 EAI 管理 人 员 组 成 的 样本 ， 现 在 可 以 计算 样本 比率 的 值 在 总 体 比 率 p 附近 + 上 0.05 的 概率 。 由 于 抽 
样 分 布 近 似 于 均值 为 0.60， 标 准 差 为 0.0490 的 正 态 分 布 ， 我 们 可 以 查 标准 正 态 概率 表 得 到 该 概率 或 面积 。 当 5 = 
0. 65 时 ，z = (0. 65 -0.6)/0.049 =1.02 ， 查 标准 正 态 概 率 表 ， 与 z=1.02 相对 应 的 累积 概率 为 0.846 1。 类 似 地 ， 
当 =0.55 时 , z=(0.55 -0.6)/0.049 = -1.02, 与 z= -1.02 相对 应 的 累积 概率 为 0.153 9。 因 而 如 果 样 本 容量 
从 30 增加 到 100， 那么 样本 比率 在 总 体 比率 p 左右 0.05 以 内 的 概率 将 增加 到 0. 846 1 -0. 153 9 =0. 692 2 。 








方法 办 企业 时 ， 有 55% 的 人 的 年 龄 不 超过 29 岁 ， 有 
女 32. 总 体 比 率 为 0.4， 从 中 选取 一 个 样本 容量 为 200 的 45 狗 的 人 的 年 龄 大 于 30 岁 (人 《华尔街 日 报 》，2012 
样本 ， 用 样本 比率 了 估计 总 体 比率 。 年 3 月 19 日 )。 假定 选取 200 家 企业 组 成 一 个 样 

a 样本 比率 万 落 在 总 体 比 率 户 附近 士 0.03 以 内 的 本 ， 了 解 企业 家 的 重要 品质 。 
概率 是 多 少 ? a. 求 了 的 抽样 分 布 ， 其 中 万 为 企业 家 首次 创业 年 龄 

b. 样本 比率 了 落 在 总 体 比率 p 附近 十 0.05 以 内 的 不 超过 29 岁 的 样本 比率 。 


b. (a) 中 的 样本 比率 在 总 体 比 率 p 附近 土 0.05 以 
内 的 概率 是 多 少 ? 

c. 假定 选取 200 家 企业 组 成 一 个 样本 ， 了 解 企业 
家 的 重要 品质 。 求 五 的 抽样 分 布 ， 其 中 五 为 企业 


概率 是 多 少 ? ， 
34. 总 体 比 率 为 0.3。 对 下 列 样本 容量 ， 计 算 样 本 比率 
落 在 总 体 比 率 p 附近 土 0.04 以 内 的 概率 是 多 少 ? 


. mel 家 首次 创业 年 龄 达到 或 超过 30 岁 的 样本 比率 。 
CE d (ce) 中 的 样本 比率 在 总 体 比 率 疡 附近 土 0.05 以 
内 的 概率 是 多 少 ? 
ER e。(b) 和 (d) 中 的 概率 有 不 同 吗 ? 如 果 不 同 ， 
e, 大 样本 容量 的 好 处 是 什么 ? 办 机 了 

有 f， 当 样本 容量 为 400 时 ， 回 答 (b) 让 问 题 。 概 率 


36. 据 《 华 尔 街 日 报 》 报 道 ， 企 业 家 当中 首次 创业 开 更 小 吗 ? 为 什么 ? 
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38. 有 42 吃 的 初级 保健 医生 认为 患者 接受 了 不 必要 的 何 影 响 ? 为 什么 ? 

治疗 (《 读 者 文摘 》，2011 年 12 月 [2012 年 1 月 )。 40. 据 美国 百货 制造 商 报道 ，76 匈 的 顾客 阅读 产品 标签 

a、 假定 选取 300 名 初级 保健 医生 组 成 一 个 样本 ， 求 医 所 列 示 的 配方 。 假 定 总 体 比 率 p=0.76， 从 总 体 中 
生 中 认为 患者 受到 过 度 治疗 的 比率 的 抽样 分 布 。 选取 400 名 顾 容 组 成 一 个 样本 。 

b. 样本 比率 在 总 体 比 率 p 附近 土 0.03 以 内 的 概率 a. 求 了 的 抽样 分 布 。 其 中 是 样本 中 阅读 产品 标签 
是 多 少 ? 所 列 示 配方 的 顾客 所 占 的 比率 。 

c. 样本 比率 在 总 体 比 率 p 附近 主 0.05 以 内 的 概率 b. 样本 比率 落 在 总 体 比 率 pp 附近 土 0.03 以 内 的 概 
是 多 少 ? 率 是 多 少 ? 

d. 若 增 大 样本 容量 , 对 (b) 和 (c) 中 的 概率 有 c. 当 样 本 是 由 750 名 顾客 组 成 时 ， 回 答 (b) 中 问题 。 


7.7 点 估计 的 性 质 

本 章 我 们 已 经 说 明了 样本 统计 量 ， 如 样本 均值 x*， 样 本 标准 差 s， 样 本 比率 5 如何 用 做 相应 总 体 参 数 j，o 和 pp 
的 点 估计 量 。 直 观 上 ， 用 这 些 样 本 统计 量 做 为 相应 总 体 参数 的 点 估计 量 是 很 有 吸引 力 的 。 然 而 ， 在 一 个 样本 统计 
量 做 为 点 估计 量 之 前 ， 统 计 学 家 需要 检查 该 样本 统计 量 是 否 具 有 好 的 点 估计 量 应 具备 的 性 质 。 本 节 我 们 讨论 一 个 
好 的 点 估计 量 应 该 具有 的 三 条 性 质 : 无 偏 性 、 有 效 性 和 一 致 性 。 

由 于 有 许多 不 同 的 样本 统计 量 可 用 做 总 体 不 同 参数 的 点 佑 计量， 因此 本 节 中 我 们 采用 如 下 这 种 一 般 的 记号 。 

9 一 一 感 兴趣 的 总 体 参 数 

9 一 一 样本 统计 量 或 9 的 点 估计 量 

符号 9 是 希腊 字母 ， 读 做 theta; 符号 b 读 做 theta 尖 。 通 常 ，9 代表 任 一 总 体 的 参数 ， 比 如 总 体 均值 、 总 体 标 
准 差 和 总 体 比 率 等 ; 9 代表 相应 的 样本 统计 量 ， 比 如 样本 均值 、 样 本 标准 差 和 样本 比率 。 


7.7.1 无 偏 性 
如 果 样 本 统计 量 的 期 望 值 等 于 所 估计 的 总 体 参数 ， 则 称 该 样本 统计 量 是 相应 总 体 参 数 的 无 偏 估计 量 。 












于 是 ， 样 本 无 偏 统 计量 的 所 有 可 能 值 的 数学 期 望 或 均值 等 于 被 估计 的 总 体 参 数 。 
图 7-10 展示 了 有 偏 和 无 偏 点 估计 量 。 


9 的 抽样 分 布 6 的 抽样 分 布 
在 无 偏 估 计量 的 图 示 中 ， 抽 样 分 布 均值 与 
总 体 参数 的 值 相等 。 此 时 ， 由 于 有 时 点 估 
计量 大 于 8， 有 时 小 于 9， 因 此 估计 的 误差 
相抵 。 在 有 偏 估计 量 的 情形 下 ， 抽 样 分 布 
的 均值 大 于 或 者 小 于 总 体 参 数 的 值 。 在 图 
7-10b 中 , 由 于 了 (6) 比 9 大 ， 从 而 样本 统 a 
计量 以 较 大 的 概率 高 估 总 体 参 数值 。 偏锋 一 一 一 9 一 E(6) : 
程度 如 图 所 示 。 参数 0 等 于 抽样 分 布 的 均值 ; 参数 不 等 于 抽样 分 布 的 均值 ; 
在 讨论 样本 均值 和 样本 比率 的 抽样 分 mE et 
布 时 ， 我 们 证 明了 E(#) =p 和 E(5) =p。 


因此 x* 和 都 是 相应 总 体 参数 jw 和 p 的 无 偏 7-10 有 偏 与 无 偏 点 估计 量 的 例子 
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估计 量 。 

对 于 样本 标准 差 s* 和 样本 方差 ，， 可 以 证 明 E(s ) =o ， 因 此 样本 方差 $ 是 总 体 方差 o 的 无 偏 估 计量 。 实 际 
上 ， 当 我 们 在 第 3 章 中 第 一 次 给 出 样本 方差 和 样本 标准 差 的 公式 时 ,分 母 是 nn-1 而 不 是 n， 用 nn -1 而 不 用 的 
原因 正 是 为 了 使 样本 方差 是 总 体 方差 的 无 偏 估计 量 。 


7.7.2 有 效 性 


假定 一 个 简单 随机 样本 由 个 个 体 组 成 ， 给 出 了 总 体 同一 参数 的 两 个 不 同 的 无 偏 点 估计 量 。 这 时 ， 我 们 倾向 
于 采用 标准 误差 较 小 的 点 估计 量 ， 因 为 它 给 出 的 估计 值 与 总 体 参 
数 更 接近 。 称 有 较 小 标准 误差 的 点 估计 量 比 其 他 点 估计 量 有 更 相 人 的 抽样 分 布 
对 有 效 (relative efficiency)。 

图 7-11 给 出 了 两 个 无 偏 点 估计 量 6 和 6 的 抽样 分 布 。 注 意 ， 
由 于 人 的 标准 误差 比 6, 的 标准 误差 小 ， 因 此 & 的 值 比 , 的 值 接近 
参数 6 的 机 会 更 大 。 由 于 点 估计 量 B 的 标准 误差 比 点 估计 量 2. 的 所 的 搞 样 分 布 
标准 误差 小 ， 因 此 及 比 6 相对 更 有 效 ， 是 更 好 的 点 估计 量 。 


7.7.3 一 致 性 0 


参数 8 

_ 个 好 的 点 估计 应 该 具备 的 第 三 条 性 质 是 一 致 性 ( consisten. 
cy) 。 粗 略 地 讲 ， 如 果 随 着 样本 容量 的 增 大 ， 点 估计 量 的 值 与 总 体 。 ”下 个 天 篇 态 信 计量 的 抽样 分 布 
参数 越 来 越 接近 ， 则 称 该 点 估计 量 是 _ 致 的 。 换 而 言 之 ， 大 样本 情形 下 比 小 样本 情形 下 更 易于 得 到 一 个 好 的 点 估 
计 。 注意 ， 对 样本 均值 =， 我 们 可 以 证 明天 的 标准 误差 o; =o/VW。 由 于 0; 与 样本 容量 相关 ， 样 本 容量 越 大 0, 值 越 
小 ， 因 此 我 们 得 出 结论 ， 大 样本 容量 下 所 给 出 的 点 估计 与 总 体 均值 更 接近 。 从 这 个 意义 上 ， 我 们 可 以 说 样本 均 
值 庆 是 总 体 均值 六 的 一 个 _ 致 估计 量 。 同 理 ， 我 们 也 可 以 得 出 结论 ， 样 本 比率 万 是 总 体 比率 p 的 一 个 一 致 估计 量 。 

在 第 3 章 ， 我 们 证 明了 霹 值 和 中 位 款 是 谨 量 位 置 中 心 的 两 种 方法 。 表 章 ， 我 们 只 讨论 了 均值 ， 这 是 因为 在 正 
起 总 体 中 总 体 淘 信和 与 总 体 中 位 数 是 相等 的 ， 当 从 正 坊 总 体 中 抽样 时 ， 中 位 数 的 标准 庶 差 厂 约 比 均值 的 标准 误差 大 
将 近 25% 。 回忆 在 EAI 问题 中 ,，n =30， 均值 的 标准 误差 oz =730.3， 此 时 中 住 数 的 标准 误差 大 约 为 1.25 x 
730. 30 =913。 因 此 ， 样 本 均值 更 有 效 ， 以 更 高 的 概率 落 入 总 体 均 值 附近 的 某 一 特定 范围 。 


7.8 其 他 抽样 方法 


作为 自 有 限 总 体 进行 抽样 的 一 种 方法 ,我 们 已 经 描述 了 简单 随机 抽样 并 且 讨 论 了 简单 随机 抽样 中 * 和 5 的 抽 
样 分 布 的 性 质 。 除 此 之 外 ， 还 有 分 层 随 机 抽样 、 整 群 抽样 和 系统 抽样 等 方法 。 在 某 些 情况 下 ， 它 们 优 于 简单 随机 
抽样 。 本 节 我 们 简要 介绍 这 些 其 他 的 抽样 方法 。 详 细 讨 论 见 本 教材 所 附 光 盘 中 的 第 22 章 。” 


7. 8. 1 分 层 随机 抽样 


在 分 层 随机 抽样 中 ， 总 体 中 的 个 体 首先 被 分 成 称 作 层 的 组 ， 总 
体 中 的 每 一 个 体 属 于 且 仅 属于 某 一 层 。 由 抽样 设计 者 自行 进行 层 的 
划分 ， 比 如 : 按照 部 门 、 位 置 、 年 龄 、 产 业 类 型 等 进行 划分 。 当 每 
一 层 内 的 个 体 都 尽 可 能 地 相似 时 ， 得 到 的 结果 最 佳 。 图 7-12 是 将 一 图 7-12 分 层 随 机 抽样 的 图 示 












名 当 自 正 态 总 体 抽 样 时 ， 样 本 均值 的 标准 误差 比 样 本 中 位 数 的 标准 误差 要 小 ， 因 此 样本 均值 比 样本 中 位 数 有 效 。 
如 ”本 节 对 除 简 单 随机 抽样 以 外 的 其 他 抽样 方法 做 一 个 简介 。 
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个 总 体 分 成 吾 层 的 图 示 。 

分 层 以 后 ， 从 每 一 层 抽 一 个 简单 随机 样本 。 将 每 层 的 样本 的 结果 合并 起 来 ， 利 用 公式 对 感 兴趣 的 总 体 参数 进 
行 估计 。 分 层 随机 抽样 的 值 依赖 于 层 内 个 体 的 同 质 性 。 如 果 层 内 的 个 体 是 同 质 的 ， 该 层 有 较 低 的 方差 ， 那 么 在 相 
对 小 的 样本 容量 下 便 可 获得 层 特征 的 一 个 好 的 估计 “。 如 果 各 层 是 同 质 的 ,那么 分 层 随机 抽样 方法 能 在 较 小 的 样 
本 容量 下 得 到 与 简单 随机 抽样 同样 精确 的 结果 。 


7.8.2 整 群 抽样 


在 整 群 抽样 (cluster sampling) 中 ， 总 体 中 的 个 体 首先 被 分 成 称 作 群 的 单个 组 ， 总 体 中 的 每 一 个 个 体 属于 县 
仅 属 于 某 一 群 ( 见 图 7-13)。 以 群 为 单位 抽取 一 个 简单 随机 样本 ， 
抽出 的 群 的 所 有 个 体 组 成 一 个 样本 。 当 群 中 的 个 体 不 同 质 时 ， 整 
群 抽样 得 到 的 结果 最 佳 2。 在 理想 的 状态 下 ， 每 一 群 是 整个 总 体 
小 范围 内 的 代表 。 整 群 抽样 的 值 依赖 于 每 一 群 对 整个 总 体 的 代表 
性 。 如 果 所 有 的 群 在 这 个 意义 上 是 同 质 的 ， 则 抽取 小 量 的 群 就 可 
以 得 到 关于 总 体 参 数 的 好 的 估计 。 图 7-13 整 群 抽样 的 图 未 

整 群 抽样 的 基本 应 用 之 一 是 区 域 抽样 ， 其 中 群 为 街区 或 以 其 他 方式 定义 的 区 域 。 整 群 抽样 通常 比 简单 随机 抽 
样 或 分 层 随机 抽样 所 需 样 本 容量 要 大 。 然 而 ， 事 实 上 当 派 一 个 采访 员 去 一 个 样本 群 (如 ， 城 市 路 口 7 时， 可 以 在 
相对 短 的 时 间 内 获得 许多 样本 观察 值 ， 从 而 节约 费用 。 因 此 ， 可 以 在 更 低 的 总 成 本 下 获得 更 大 量 的 样本 。 


7.8.3 系统 抽样 


在 某 些 抽 样 情况 下 ， 特 别 是 对 那些 容量 很 大 的 总 体 时 ， 如 果 采 取 先 找到 一 个 随机 数 再 计数 或 在 总 体 个 体 的 清 
单 中 查找 相应 的 个 体 来 选取 一 个 简单 随机 样本 的 话 ， 这 是 非常 费时 的 。 简 单 随机 抽样 的 另 一 种 替代 方法 为 系统 抽 
样 (systematic sampling) 。 例 如 ， 如 果 和 希望 从 含 5 000 个 个 体 的 总 体 中 选取 样本 容量 为 50 的 样本 ， 我 们 从 总 体 每 5 
000750 = 100 个 个 体 中 选 出 一 个 为 样本 点 。 在 系统 抽样 情形 下 ， 即 为 在 总 体 清单 的 前 100 个 个 体 中 随机 选取 一 个 ， 
然后 从 第 一 个 已 选 出 的 个 体 开始 ， 依 次 向 下 ， 在 总 体 清单 中 每 隔 100 个 个 体 选 取 一 个 为 样本 点 。 实际 上 ， 从 第 一 
个 选取 的 个 体 开 始 向 后 每 隅 100 个 个 体 选取 一 个 做 为 样本 点 ， 通 过 机 械 地 在 总 体 中 移动 得 到 50 个 样本 点 。 通 常 ， 
采用 这 种 方法 比 用 简单 随机 抽样 方法 来 选取 50 个 样本 点 要 容易 些 。 由 于 第 一 个 被 选中 的 个 体 是 随机 的 ， 通常 假 
定 系统 抽样 具有 简单 随机 抽样 的 性 质 。 当 总 体 中 个 体 的 排列 是 按照 个 体 的 随机 顺序 排列 时 ,这 一 假设 尤其 适用 。 


7. 8. 4 方便 抽样 


以 上 讨论 的 抽样 方式 指 的 均 属于 概率 抽样 技术 ,从 总 体 中 选 出 的 个 体 以 已 知 的 概率 入 选 样 本 。 概 率 抽 样 的 优 
点 在 于 样本 统计 量 的 抽样 分 布 通常 是 已 知 的 。 本 章 所 给 出 的 简单 随机 抽样 的 公式 可 用 于 确定 抽样 分 布 的 性 质 。 于 
是 ， 对 基于 样本 结果 推断 总 体 时 所 产生 的 误差 ， 可 利用 抽样 分 布 作出 概率 解释 。 

方便 抽样 (convenience sampling) 是 一 种 非 概率 抽样 技术 。 顾名思义 ， 样 本 的 确定 主要 是 基于 简便 。 样 本 中 
所 包括 的 个 体 不 是 事先 确定 或 按照 已 知 概率 选取 的 。 例 如 ， 一 名 教授 在 某所 大 学 做 一 项 调查 ， 由 于 学 生 中 的 志愿 
者 已 准备 好 并 且 参 加 该 项 调查 无 须 或 几乎 不 需要 成 本 ， 故 选择 由 他 们 组 成 样本 。 类 似 地 ;一 个 监督 员 可 以 从 许多 
货运 板 条 箱 中 随便 选取 橙子 调查 运输 质量 。 显 然 ， 给 每 个 检 子 标签 ， 用 概率 抽样 方式 是 不 现实 的 。 再 比如 ， 野 生 
动物 营地 的 样本 以 及 消费 者 研究 中 志愿 者 的 面板 数据 都 是 方便 样本 。 

方便 抽样 的 优点 在 于 ， 样 本 选择 和 搜集 数据 相对 容易 。 然 而 ， 从 其 对 总 体 的 代表 性 来 讲 ， 它 不 能 用 于 估计 样 
本 的 “ 拟 合 性 "。 一 个 方便 样本 可 能 得 到 好 的 结论 ， 也 可 能 不 能 。 没 有 统计 上 公认 的 方法 可 用 于 对 抽样 结果 的 质 





加 当 每 层 当 中 个 体 的 方差 相当 小 时 ， 分 层 随 机 抽样 的 效果 最 好 。 
名 ” 当 每 群 是 总 体 一 个 小 范围 的 代表 时 ， 整 群 随机 抽样 的 效果 最 好 。 
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量 进 行 概 率 分 析 和 推断 。 有 时 ”研究 者 将 概率 抽样 中 所 设计 的 统计 方法 用 于 方便 抽样 ， 认 为 可 以 将 方便 抽样 视 为 
概率 抽样 。 然 而 ， 这 种 观点 尚未 得 到 认可 ,我 们 在 用 方便 抽样 的 结果 对 总 体 进行 推断 时 ， 在 解释 上 要 谨慎。 


7. 8. 5 判断 抽样 


男 一 种 非 概 率 抽样 技术 为 判断 抽样 (judgment sampling) 。 在 这 种 抽样 方法 中 ， 由 对 研究 总 体 非常 了 解 的 人 主 
观 确 定 选择 总 体 中 他 认为 最 具 代 表 性 的 个 体 组 成 样本 。 通 常 ， 这 种 方法 在 选取 样本 时 相对 容易 。 例 如 ,报告 者 可 
抽样 两 个 或 三 个 议员 ， 认 为 这 些 议 员 的 想法 反映 了 全 体 议员 的 普遍 意见 。 然 而 ,抽样 结 果 的 质量 依赖 于 选择 样本 
的 人 的 判断 。 同 样 ， 基 于 判断 抽样 对 总 体 进行 推断 时 ， 在 做 结论 的 时 候 要 特别 小 心 。 


注释 和 评论 
当 自 有 限 总 体 进行 抽 祥 时 ， 我 们 推荐 采用 下 列 概率 抽样 方法 : 简单 随机 抽样、 分 层 随机 抽样 、 整 群 抽样 或 系 
统 抽 样 。 对 这 些 方法 ， 有 公式 可 用 于 评判 抽样 结果 与 总 体 特 征 的 接近 程度 一 一 “ 拟 合 度 ”。 对 方便 抽样 或 者 判断 
抽样 而 言 ， 






本 章 ， 我 们 给 出 了 抽样 和 抽样 分 布 的 概念 。 我 们 
说 明了 如 和 何 从 有 限 总 体 抽取 一 个 简单 随机 样本 和 如 何 
从 无 限 总 体 抽取 一 个 随机 样本 ， 利 用 收集 的 样本 数据 
可 以 对 总 体 参 数 进 行 点 估计 。 由 于 不 同 的 样本 给 出 了 
不 同 的 点 估计 量 的 值 ， 因 此 点 估计 量 ， 比 如 忒 和 五 ， 都 
是 随机 变量 。 这 些 随 机 变量 的 概率 分 布 叫 作 抽 样 分 布 。 





关键 术语 


sampled population ”抽样 总 体 ”抽取 样本 的 总 体 。 

frame 抽样 框 ”抽取 样本 时 所 用 的 个 体 清单 。 

parameter 参数 总 体 的 数值 特征 ， 如 总 体 均 值 凡 、 
总 体 标准 差 59、 总 体 比 率 p，……: 

simple random sample 简单 随机 样本 从 容量 为 六 
的 有 限 总 体 中 抽取 容量 为 n 的 一 个 样本 ,使 得 样本 
中 的 每 一 个 个 体 都 以 相同 的 概率 被 抽 到 。 

sampling without replacement 无 放 回 抽样 
体 一 旦 被 选 入 样本 ， 就 从 总 体 中 史 除 ， 不 能 再 次 被 
选 入 样本 。 

sampling with replacement 有 放 回 抽样 ”一 个 个 体 被 
选 入 样本 后 仍然 放 回 总 体 中 。 先 前 被 抽 到 的 个 体 可 
能 再 次 被 选 入 样本 ， 从 而 在 样本 中 多 次 出 现 。 

random sample 随机 样本 ”如 果 从 无 限 总 体 中 抽取 
一 个 容量 为 元 的 样本 ,使 得 下 面 的 条 和 件 得 到 满足 : 
1. 抽取 的 每 个 个 体 来 自 同一 总 体 ; 2. 每 个 个 体 的 抽 
取 是 独立 的 。 则 称 该 样本 是 一 个 随机 样本 。 

sample statistic ”样本 统计 量 ”一 种 样本 特征 ， 如 样本 


一 个 个 


我 们 特别 描述 了 样本 均值 * 和 和 样本 比率 的 抽样 分 布 。 





则 簿 能 评判 抽样 结果 的 “ 拟 合 度 " 。 因 而 ， 对 于 由 非 概率 抽样 方法 得 到 的 结果 ， 在 解释 上 要 特别 小 心 。 





在 考虑 区 和 五 的 抽样 分 布 的 特征 时 ， 我 们 证 明了 
E(x) =hL 和 E(p) =ps 因此 ,和 是 无 人 篇 估计 量 。 在 
给 出 估计 量 的 标准 差 或 标准 误差 的 公式 后 ， 我 们 给 出 
了 元 和 五 的 抽样 分 布 服从 正 态 分 布 的 必要 条 件 。 其 他 
抽样 方式 还 包括 分 层 随机 抽样 、 整 群 抽样 、 系 统 抽 样 、 
方便 抽样 和 判断 抽样 ， 对 此 我 们 也 进行 了 讨论 。 
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均值 *、 样 本 标准 差 s、 样 本 比率 p， 等 等 。 样 本 统 
计量 的 信用 于 估计 相应 总 体 和 参数 。 

point estimator 点 估计 量 提供 总 体 参 数 点 估计 的 样 
本 统计 量 ， 如 、s 或 

point estimate 点 估计 值 ” 点 估计 量 的 值 ， 在 一 个 特 
定 实 例 中 用 来 作为 总 体 参 数 的 估计 和 值 。 

target population 目标 总 体 ”进行 统计 推断 (比如: 
点 估计 ) 的 总 体 。 目 标 总 体 应 该 与 相应 的 抽样 总 体 
尽 可 能 多 的 相似 ， 这 在 统计 推断 中 光 为 重要 。 

sampling distribution 抽样 分 布 一 个 样本 统计 量 所 
有 可 能 值 构 咸 的 概率 分 布 。 

unbiased 无 偏 性 ”点 估计 量 的 一 个 性 质 ， 此 时 点 估 
计量 的 数学 期 望 等 于 所 估 总 体 参 数 的 值 。 

finite population correction factor ”有限 总 体 修 正 系数 

当 从 有 限 总 体 而 非 无 限 总 体 抽样 时 ，g; 和 oo 的 公 

式 中 出 现 的 项 VY(N-n)AN-1)。 根 据 经 验 法 则 ， 
当 nAN<0,05 时 一 般 可 以 铬 略 有 限 总 体 修正 系数 。 

standard error 标准 误差 ”点 估计 量 的 标准 差 。 





i 
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central limit theorem ”中心 极限 定理 一 个 定理 ， 当 
样本 容量 很 大 的 时 候 可 以 用 正 态 概率 分 布 近 似 % 的 
抽样 分 布 。 

relative efficiency 相对 有 效 性 ”对 同一 总 体 和 参数 的 两 个 
无 偏 的 点 估计 量 ， 称 有 更 小 标准 差 的 点 估计 量 更 有 效 。 

consistency 一 致 性 ”点 估计 量 的 一 个 性 质 ， 随 着 样 
本 容量 的 增 大 ， 点 估计 值 与 总 体 参 数 越 来 越 接近 。 

stratified random sampling 分 层 随 机 抽样 ”一 种 概率 
抽样 方式 ， 先 将 总 体 分 成 若干 层 ， 然 后 在 每 层 中 进 

行 简单 随机 抽样 。 





x 的 数学 期 望 
BE(%) = (7:=1) 
x 的 标准 差 ( 标 准 误差 ) 
有 限 总 体 无 限 总 体 


i i 


(7-2) 





42.《 美 国 新 闻 和 世界 报道 》 公 布 了 美国 最 好 的 大 学 的 
详细 信息 ( 《美国 最 好 的 大 学 》，2009 年 ) 。 除 此 
之 外 ， 他 们 还 列 出 了 全 美 最 好 的 133 所 国立 大 学 的 
名 单 。 你 想 要 从 这 些 大 学 中 选取 一 个 样本 ， 并 对 他 
们 的 学 生 进 行 后 续 研 究 。 从 表 7-1 中 第 三 列 末端 的 
随机 数 开 始 ， 忽 略 五 位 数 中 的 前 两 位 只 利用 三 位 
数 ， 从 959 开始 按 列 向 上 从 编号 1 ~133 的 大 学 中 
选取 出 7 所 大 学 组 成 一 个 简单 随机 样本 。 有 必要 的 
话 ， 可 继续 沿 着 第 四 列 和 第 五 列 末端 随机 数 开 始 
向 上 进行 选取 。 

44. Foot Lock 用 每 平方 英尺 年 销售 额 来 衡量 商铺 的 绩 
效 。 目 前 ， 每 平方 英尺 的 年 销售 额 达 到 406 美元 
(《 华 尔 街 日 报 》，2012 年 3 月 7 日 )。 管 理 层 要 求 
你 对 64 家 商铺 组 成 的 一 个 样本 进行 研究 。Foot 
Lock 共有 3400 家 商铺 ， 假 设 商铺 每 平方 英尺 年 销 
售 额 的 总 体 标准 差 为 80 美元 。 

a 选取 Foot Lock 的 64 家 商铺 组 成 一 个 样本 ， 试 求 
样本 驳 值 x 的 抽样 分 布 ， 其 中 多 是 每 平方 英尺 
年 销售 额 的 样本 均值 。 

b. 样 示 均值 在 总 体 均 值 附近 +15 美元 以 内 的 概率 
为 多 少 ? 


cluster sampling ” 整 群 抽样 ”一 种 概率 抽样 方式 ， 先 
将 总 体 分 成 若干 群 ， 然 后 以 群 为 单位 进行 简单 随机 
抽样 。 

systematic sampling 系统 抽样 ”一 种 概率 抽样 方式 ， 
从 头 丰 个 个 体 中 随机 选 一 个 ， 然 后 往 后 每 隔 大 个 个 
体 选取 一 个 个 体 进入 样本 。 

convenience sampling 方便 抽样 
式 ， 基 于 简便 选择 个 体 组 成 样本 。 

judgment sampling ”判断 抽样 ”一 种 非 概 率 抽 样 方式 ， 
基于 研究 人 员 的 判断 选择 个 体 组 成 料 本 。 


IT 


五 的 数学 期 户 


一 种 非 概率 抽样 方 






E(p) =p 
P 的 标准 差 (标准 误差 ) 
有 限 总 体 


N=n. /p(l -~p) r 
N-1 n i n 


"ey x 
et [a 和 a 
1 a si -0 
i a 


c. 假定 你 得 到 的 样本 均值 为 380 美元 。 求 样本 均 
值 不 高 于 380 美元 的 概率 。 你 认为 这 个 样本 是 
由 和 低 业 绩 的 异常 店铺 组 成 的 吗 ? 

46. 扣除 必 要 的 补助 金 后 ， 南 加 州 大 学 (USC) 的 平均 

费用 为 27 175 美元 (4 美国 新 闻 和 世界 报道 》， 美 国 
最 好 的 大 学 ，2009 年 )。 人 假定 总 体 标 准 差 为 7 400 
美元 ， 从 总 体 中 抽取 60 名 USU 学 生 组 成 一 个 简单 
随机 样本 。 
a. 均值 的 标准 误差 是 多 少 ? 
b. 样本 均值 大 于 27175 美元 的 概率 是 多 少 ? 
c. 样本 均值 在 总 体 均值 * 附 近 士 1000 美元 以 内 的 
概率 为 多 少 ? 
d. 若 样 本 容量 增 大 到 100， 则 (ce) 中 福 率 为 
多 少 ? 
48. 某 研 究 人 员 调 查 结果 表明 ， 均 值 的 标准 误差 为 20， 
而 总 体 的 标准 差 为 500。 试 问 : 
a. 调查 中 的 样本 容量 为 多 大 ? 
b. 估计 量 落 在 总 体 均 值 屎 左右 士 25 以 内 的 概率 为 
多 大 ? 
50. 私人 公司 中 大 约 有 28 免 为 女性 所 拥有 (The Cincin- 
nati Enquirer，2006 年 1 月 26 日 )。 根 据 240 家 敌 


人 








了 2 


人 公司 组 成 的 一 个 样本 ， 回 答 下 列 问题 。 

a. 试 求 五 的 抽样 分 布 ， 其 中 五 是 女性 所 拥有 企业 的 
样本 比率 。 

b. 样本 比率 在 总 体 比 率 p 附近 土 0.04 以 内 的 概 
率 是 多 少 ? 

c. 样本 比率 在 总 体 比 率 p 附近 十 0.02 以 内 的 概 
率 是 多 少 ? 

想 要 登 广 告 的 人 与 互联 网 服务 商 以 及 搜索 引擎 签订 

合同 后 将 广告 放 在 网 站 上 ， 并 根据 点 击 其 广告 的 潜 

在 顾客 的 数目 支付 费用 。 不 幸 的 是 ,仅仅 为 了 提高 

广告 收入 而 发 生 的 欺诈 性 点 击 行为 已 经 成 为 一 个 严 

重 的 问题 。 登 广告 的 人 中 有 40 认为 他 们 是 欺诈 性 

点 击 的 受害 者 (《 商 业 周 刊 》，2006 年 3 月 13 日 )。 

假定 选取 380 名 登 广告 的 人 组 成 一 个 简单 随机 样本 ， 

以 便 更 多 地 了 解 坎 诈 性 点 击 对 他 们 的 影响 。 求 : 


54. 
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a. 坎 诈 性 点 击 的 样本 比率 在 总 体 比 率 附 近 +0.04 
之 内 的 概率 。 

b. 欺诈 性 点 击 的 样本 比率 大 于 0.45 的 概率 。 

Lori Jeffrey 是 大 学 教材 主要 出 版 商 的 一 名 销售 代 

表 ， 她 的 工作 很 出 色 。 历 史 数 据 显 示 ， 在 Lori 的 电 

话 销售 中 教材 被 采用 的 可 能 性 达到 25%。 观 察 她 

一 个 月 的 电话 销售 记录 ， 并 将 销售 电话 的 结果 组 

成 一 个 样本 。 假 设 数据 的 统计 分 析 显 示 ， 比 率 的 标 

准 误差 为 0.062 5。 

a. 在 这 项 分 析 中 ， 样 本 容量 为 多 大 ? 也 就 是 说 ， 
在 一 个 月 里 Lori 打 了 多 少 个 销售 电话 ? 

b. 令 五 代表 在 这 个 月 期 间 Lori 电话 销售 中 教材 被 
采用 的 样本 比率 ， 求 了 的 抽样 分 布 。 

ce. 利用 的 抽样 分 布 ， 求 在 一 个 月 内 Lori 电话 销 
售 中 教材 被 采用 的 比率 不 低 于 30% 的 概率 。 
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实践 中 的 统计 : Food Lion 
8.1 总 体 均 值 的 区 间 估 计 : oo 已 知情 形 
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3 样本 容量 的 确定 

4 ”总体 比 率 






9 

广 
次 
汶 
起 







co oo 5 上 





第 8 章 区 间 估 计 181 


实践 中 的 统计 


Food Lion © 


北 卡罗来纳 州 ， 


Food Lion 食品 城 创立 于 1957 年 ， 是 美国 最 大 的 连 
锁 超市 之 一 。 在 美国 东南 部 和 大 西洋 中 部 地 区 的 11 个 
州 中 有 1300 家 连锁 店 。 公 司 销售 的 产品 超过 24 000 
种 ， 提 供 在 全 美和 地 区 进行 广告 宣传 的 名 牌 商品 ， 其 
中 由 Food Lion 特别 供给 的 具有 自主 商标 的 高 品质 产品 
在 数量 上 逐年 增加 s Food Lion 通过 高 效 的 运作 ， 比 如 
标准 化 的 存储 方式 、 仓 库 的 创新 设计 、 高 效能 的 设备 
以 及 与 供应 商 的 同步 数据 ,来 确保 物美 价 廉 。Food Li- 
on 承诺 ， 未 来 将 一 如 既往 地 保持 持续 的 创新 、 发 展 、 
价格 领先 和 对 顾客 的 优质 服务 。 

在 这 样 一 个 库存 密集 型 的 企业 中 ， 公 司 决定 采取 
后 进 先 出 (LIFO) 的 库存 计价 法 。 该 方法 将 当期 成 本 
与 当期 收益 相配 比 ， 从 根本 上 降低 了 价格 剧烈 的 变化 
对 损益 的 影响 sa 另外 ， 在 通货 膨胀 时 期 ，LIFO 库存 计 
价 方 法 可 以 减少 净 收 益 ， 从 而 减少 所 得 税 。 

Food Lion 有 七 座 存货 库房 ， 分 别 存 放 杂 货 、 纸 /家 
居 、 宠 物 、 保 刍 和 化 妆 品 、 奶 制品 、 烟 草 和 酒 类 。 
Food Lion 为 每 个 库房 中 建立 了 LIFO 指数 。 例 如 ， 杂 货 
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存货 库房 的 LIEO 指数 为 1.008， 说 明 最 近 一 年 当中 由 
于 通货 膨胀 的 原因 ， 致 使 公司 以 当期 成 本 计价 的 杂货 
的 库存 价值 增加 了 0.8% 。 

对 每 个 存货 库房 ，LIFO 指数 要 求 对 每 种 产品 的 年 
末 和 存货 按 当 年 年 末 成 本 和 上 一 年 年 末 成 本 分 别 计价 。 
为 避免 在 全 部 的 1200 个 存储 点 中 对 存货 逐一 进行 计数 
而 浪费 财力 和 和 时间，Food Lion 选取 50 个 存储 点 组 成 一 
个 随机 样本 。 年 末 仅 对 这 些 样本 存储 点 中 的 库存 进行 
实地 慢 存 。 每 个 存储 点 根据 每 种 产 癌 的 当年 成 本 和 上 
一 年 成 本 构造 LIFO 指数 。 

去 年 ， 保 健 和 和 化妆品 存货 库房 的 LIFO 指数 的 样本 
估计 值 为 1.015。 在 95% 的 置信 水 平 下 ,样本 估计 中 
Food Lion 计算 得 到 的 边际 误差 为 0.006。 于 是 ， 总 体 
LIFO 指数 的 95% 置信 和 水平 的 区 间 估 计 为 《1.009， 
1.021)。 可 以 证 明 这 一 精度 是 很 不 错 的 。 

本 章 你 将 学 习 如 何 计算 与 样本 估计 相 联系 的 边际 
误差 ， 以 及 如 和 何 使 用 这 些 信息 构造 并 解释 总 体 均值 和 
总 体 比 率 的 区 间 估 计 。 


在 第 7 章 ， 我 们 发 现 点 估计 量 是 用 于 估计 总 体 参数 的 样本 统计 量 。 例 如 ， 样 本 均值 x 是 总 体 均 值 jw 的 点 估计 
量 ,， 样本 比率 是 总 体 比 率 p 的 点 估计 量 。 因 为 我 们 不 可 能 期 望 点 佑 计量 能 给 出 总 体 参 数 的 精确 值 ， 所 以 经 常 在 
点 估计 上 加 减 一 个 被 称 为 边际 误差 ( marginal of error) 的 值 来 计算 区 间 估 计 (interval estimate) 。 区 间 佑 计 的 一 般 


形式 如 下 : 


点 估计 主 边 际 误差 
区 间 估 计 的 目的 在 于 ， 提 供 基 于 样本 得 出 的 点 估计 值 与 总 体 参 数值 的 接近 程度 方面 的 信息 。 
本 章 ， 我 们 将 说 明 如 何 对 总 体 均 值 j 和 总 体 比率 进行 区 间 估 计 。 总 体 均值 的 区 间 估 计 的 一 般 形式 为 
元 土 加 际 误差 


类 似 地 ， 总 体 比 率 的 区 间 估 计 的 一 般 形式 为 


P 土 边际 误差 
在 计算 这 些 区 间 估 计时 ,x 和 5 的 抽样 分 布 起 着 非常 重要 的 作用 。 


8. 1 总 体 均值 的 区 间 估计 : o 已 知情 形 


为 了 对 总 体 均值 进行 区 间 估 计 ， 必须 利 用 总 体 标准 差 o 或 者 样本 标准 差 ， 计算 边际 误差 。 在 大 多 数 的 应 用 中 
o 是 未 知 的 ， 于 是 * 用 于 计算 边际 误差 。 但 是 在 一 些 应 用 中 ， 我 们 在 抽样 前 可 以 根据 大 量 有 关 的 历史 数据 估计 总 


日 ”作者 感谢 Food Lion 公司 的 税务 主管 Keith Cunningham 和 税务 会 计 Bobby Harkey， 他 们 为 “实践 中 的 统计 ”提供 了 本 案例 。 
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体 标 准 差 比如 ， 在 质量 控制 应 用 中 ， 关 假定 生产 过 程 是 正常 运行 或 者 “控制 之 中 ”， 则 可 以 看 作 总 体 标准 差 是 
已 知 的 。 我 们 称 这 种 情形 为 og 已 知 (o known)。 本 节 中 ， 我 们 举例 说 明 在 o 已 知情 形 下 如 何 构造 区 间 估 计 。 


Lloyd 百货 公司 每 周 选 择 100 名 顾客 组 成 一 个 简单 随机 样 
本 ,目的 在 于 了 解 他 们 每 次 购物 的 消费 额 。 令 x 表示 每 次 购 
物 的 消费 额 ， 样 本 均值 * 是 Lloyd 全 体 顾客 每 次 购物 消费 额 的 
总 体 均值 的 点 估计 。Lloyd 公司 的 这 项 周 度 调查 已 经 进行 了 
许多 年 。 根 据 历史 数据 ，Lloyd 假定 总 体 标准 差 已 知 ， 为 o = 
20 美元 。 并 且 历 史 数 据 还 显示 总 体 服 从 正 态 分 布 。 

最 近 一 周 ，Lloyd 调查 了 100 名 顾客 (n = 100)， 得 到 样 
本 均值 *=82 美元 。 每 次 购物 消费 额 的 样本 均值 是 总 体 均值 
上 的 点 估计 。 在 下 面 的 讨论 中 ， 我 们 将 介绍 如 何 计算 估计 的 
边际 误差 ， 以 及 如 何 建立 总 体 均 值 的 区 间 估 计 。 


8. 1. 1 边际 误差 和 区 间 估 计 


在 第 7 章 中 ,我 们 发 现 可 以 利用 x 的 抽样 分 布 计算 * 在 jy 
附近 一 定 范围 内 的 概率 。 在 Lloyd 公司 的 例子 里 ， 历 史 数 据 
表明 消费 额 总 体 服从 标准 差 o =20 的 正 态 分 布 。 因 此 ， 利 用 
第 7 章 的 知识 可 知 ,，x 的 抽样 分 布 服从 标准 误差 cx = o/Vn = 
20/V100 =2 的 正 态 分 布 ， 该 抽样 分 布 如 图 8-1 所 示 “。 因 为 
抽样 分 布 说 明 的 值 如 何 分 布 在 总 体 均 和 值 附近 ， 所 以 * 的 
抽样 分 布 提 供 了 关于 与 人 之 间 可 能 存在 的 差别 的 信息 。 

查 标准 正 态 概率 表 后 我 们 发 现 ， 任 何 正 态 分 布 随机 变量 
都 有 95%% 的 值 在 均值 附近 +1. 96 个 标准 差 以 内 。 因 此 ， 当 zx 
的 抽样 分 布 是 正 态 分 布 时 ,一定 有 95% 的 * 的 值 在 均值 j++ 
1.96o; 以 内 。 在 Lloyd 公司 的 例子 里 ， 我们 已 知 x* 的 抽样 分 
布 是 正 态 分 布 并 且 标 准 误差 ex =2。 因 为 1.960;=1.96 x2= 
3.92， 所 以 在 n =100 的 样本 容量 下 , * 的 所 有 值 中 有 95% 落 
在 总 体 均 值 岂 附近 + 上 3. 92 以 内 ( 见 图 8-2)。 

在 前 文中 ， 总 体 均值 多 的 区 间 估 计 的 一 般 形 式 为 了 + 边 
际 误差 。 在 Lloyd 公司 的 例子 里 ， 假 定 令 边际 误差 等 于 3. 92 ， 
利用 x+3. 92 计算 x 的 区 间 估 计 。 为 了 解释 这 一 区 间 估 计 ， 
我 们 抽取 三 个 不 同 的 简单 随机 样本 ， 每 一 个 样本 由 100 名 
Lloyd 公司 的 顾客 组 成 ， 考 虑 得 到 的 三 个 x* 值 。 第 一 个 样本 的 
样本 均值 如 图 8-3 所 示 。 在 这 种 情形 下 ， 图 8-3 表明 x, + 
3. 92 构建 的 区 间 包 含 了 总 体 均值 。 如 果 第 二 个 样本 均值 %, 
如 图 8-3 所 示 ， 现 在 考虑 将 会 发 生 什 么 。 虽 然 样 本 均值 与 第 
一 个 样本 均值 不 同 ,但 我 们 看 到 x, +3. 92 构建 的 区 间 仍 包括 
总 体 均 值 义 。 但 是 ， 如 果 第 三 个 样本 均值 * 如 图 8-3 所 示 ， 
则 这 时 又 会 怎样 呢 ? 在 这 种 情形 下，x, 3.92 构建 的 区 间 不 





8-1 ”100 名 顾客 的 简单 随机 样本 中 ， 消 费 额 
的 样本 均值 的 抽样 分 布 


A 
3.92—|-— 3.92 
A be 
1.960: 1 .960 


图 8-2 3 的 抽样 分 布 : 样本 均值 在 
人 十 3. 92 以 内 的 区 域 


1 








| 
| 
构建 的 区 间 元 十 3.92 构 建 的 区 间 
(注意 : 这 个 区 间 不 包括 .四 
图 8-3 ”抽取 的 样本 均值 分 别 为 * 、x, 和 
如 时 所 构造 的 区 间 


名 我们 利用 消费 额 总 体 服 从 正 态 分 布 这 一 事实 ， 得 出 天 的 抽样 分 布 服从 正 态 分 布 的 结论 。 如 果 总 体 不 是 服从 正 态 分 布 ， 则 我 们 可 以 根 
据 中 心 极 限定 理 及 样本 容量 元 =100 得 出 x 的 抽样 分 布 近 似 服 从 正 态 分 布 。 图 8-1 给 出 了 在 这 两 种 情形 下 x 的 抽样 分 布 。 
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包括 总 体 均值 &。 此 时 ， 由 于 元 落 在 抽样 分 布 的 上 侧 ， 偏 离 / 的 距离 超过 3. 92， 所 以 却 +3. 92 构建 的 区 间 不 包含 
总 体 均 值 凡 。 : 

在 图 8-3 中 ， 阴 影 区 域内 的 任 一 样本 均值 * 所 构造 的 区 间 均 包含 总 体 均 值 y。 由 于 所 有 样本 均值 中 有 95% 落 
在 此 阴影 区 域 中 ， 所 以 +3.92 所 构建 的 所 有 区 间 中 有 95% 的 区 间 包 含 总 体 均值 y。 

在 最 近 一 周 ，Lloyd 的 质量 保证 部 门 对 100 名 顾客 进行 了 调查 ,得 到 消费 额 的 样本 均值 *=82。 利 用 * 二 
3.92 构造 区 间 估 计 ， 我 们 得 到 82 +3.92。 因 此 ,根据 最 近 一 周 的 数据 , 的 区 间 估 计 为 82 一 3.92 =78.08 到 
82 +3.92 =85.92。 因 为 ,利用 * 主 3. 92 构造 的 所 有 区 间 中 有 95% 包 括 总 体 均值 ， 所 以 我 们 说 ; 有 95% 的 把 握 
相信 区 间 (78.08，85.92) 包括 总 体 均值 pj。 我 们 称 这 个 区 间 是 在 95% 置 信 水 平 (eonfidence level) 下 建立 的 ， 
其 中 数值 0. 95 称 作 置信 系数 (confidence coefficient)， 区 间 (78. 08，85.92) 称 作 95% 置信 区 间 ( confidence 
interval ) © 


边际 误差 由 zs(o/Yn) 给 出 ， 下 面 是 o 已 知情 形 下 总 体 均值 区 间 估 计 的 一 般 形 式 。 






在 Lloyd 公司 例子 中 ,我 们 利用 式 (8-1) 构造 %5%% 的 置信 区 间 。 对 于 一 个 5 名 的 置信 区 间 ， 置 信 系 数 1 - 
aw=0.95。 于是，a=0.05。 查 标准 正 态 概率 表 ， 上 侧面 积 为 a/2 =0.05/2 = 0.025 时 对 应 的 zw =1.96。Lloyd 公 
司 的 样本 均值 *=82，o =20， 样 本 容量 n=100。 我 们 得 到 

20 
82 + 1.96 -而 82 + 3.92 


于 是 ,利用 式 (8-1)， 当 边际 误差 为 3. 92 时 ，95% 的 置信 区 间 为 从 82 -3.92 =78.08 到 82 +3.92 =85. 92。 


虽然 95% 是 经 常 使 用 的 置信 水 平 ， 但 也 可 以 考虑 采 用 其 表 8-1 最 常用 的 置信 水 平 下 的 z,。 值 
他 的 置信 水 平 ， 比 如 90% 和 99%。 表 8-1 中 给 出 了 最 常用 置 置信 水 平 有 天 过 
信 水 平 下 的 2 六 值 o1' 利用 这 些 什 和 式 (8-1) 对 于 Lloyd 辣 下 0% 010 | O00 1645 - 
题 ， 公 司 例子 中 90% 的 置信 区 间 为 95% 0.05 0.025 1.960 


和 二 Oe et Re pe _ 


因此 ， 在 90% 的 置信 水 平 下 ， 边 际 误差 为 3.29， 和 置信 区 间 为 从 82 -3.29 =78.71 到 82 f3529 =85.29。 类 似 
地 ，99% 的 置信 区 间 为 
82 +2.576 一 向 82 :二 5715 
于 是 ， 在 99 儿 的 团 信 水 平 下 ,边际 误差 为 5 15， 置信 区 间 为 代 822515=76.85 到 8 下 语 287.15 
比较 90%、95% 和 99% 的 置信 水 平 的 结果 ， 我 们 看 到 : 要 想 达 到 较 高 的 置信 水 平 ， 必 须 加 大 边际 误差 ， 即 加 
大 置信 区 间 的 宽度 。 


8. 1.2 应 用 中 的 建议 
如 果 总 体 服从 正 态 分 布 ， 式 (8-1) 所 给 出 的 置信 区 间 是 精确 的 。 换 言 之 ， 如 果 利 用 式 (8-1) 反复 计算 95% 


的 置信 区 间 ， 则 得 到 的 置信 区 间 中 恰好 有 95% 的 区 间 包 含 总 体 均 值 。 如 果 总 体 不 服从 正 态 分 布 ， 则 式 (8-1) 所 
给 出 的 置信 区 间 是 近似 的 。 在 这 种 情形 下， 近似 的 程度 依赖 于 总 体 的 分 布 和 样本 容量 。 


日 ”讨论 说 明了 区 间 叫 作 95% 的 置信 区 间 的 理由 。 
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在 绝 大 部 分 应 用 中 ， 当 利用 式 (8-1) 建立 总 体 均值 的 区 间 估 计时 ， 样 本 容量 n 宇 30 已 经 足够 。 然而， 如 果 
总 体 的 分 布 不 服从 正 态 分 布 但 是 大 致 对 称 ， 则 样本 容量 至 少 为 15 时 才能 得 到 置信 区 间 一 个 好 的 近似 。 仅 当 分 析 
人 员 坚 信 或 者 愿意 假设 总 体 分 布 至 少 是 近似 正 态 时 ， 才 可 以 在 更 小 的 样本 容量 下 利用 式 (8-1) 。 
注释 和 评论 
1. 环节 所 讨论 的 区 间 和 估计 方法 是 在 总 体 标准 差 er 已 知 的 假设 下 进行 的 。g 已 知 意味 着 ， 在 估计 总 体 均值 时 ， 
我 们 进行 抽样 之 前 可 以 利用 历史 数据 或 者 其 他 信息 得 到 总 体 标 准 差 er 的 一 个 好 的 估计 。 所 以 ， 从 技术 上 
讲 ， 我 们 并 不 能 认为 rr 在 实际 中 是 确定 已 知 的 。 这 只 是 意味 着 ， 我 们 在 进行 抽样 之 前 得 到 了 总 体 标 准 差 的 
一 个 好 的 估计 ， 于 是 ,不 必 利 用 同一 样本 同时 估计 总 体 均 值 和 总 体 标准 差 。 
2. 在 区 间 估 计 的 表达 式 (8-1) 中 ， 样 本 容量 n 出 现在 分 母 上 。 于 是 ， 实 际 应 用 中 当 某 一 样本 容量 产生 的 区 
间 太 宽 时 ,我 们 可 以 考虑 增 大 样本 容量 。 由 于 n 出 现在 分 母 ， 增 大 样本 容量 可 以 使 边际 误差 减 小 ， 使 区 间 
变 窄 ， 精 度 提 高 。 为 了 达到 所 希望 的 精度 ， 如 何 确 定 简单 随机 样本 容量 的 方法 将 在 第 8.3 节 中 讨论 。 


方法 太 责 (《 华 尔 街 日 报 》，2012 年 3 月 13 日 )。10 次 一 
小 时 按摩 费用 组 成 一 个 样本 ， 平 均 费 用 为 59 美元 。 
女 2. 一 个 简单 随机 样本 由 50 项 组 成 ， 样 本 均值 元 = 32， 
a 和 1 一 小 时 按摩 费用 的 总 体 标准 差 为 o =5. 50 美元 。 
ee a 如 果 起 要 计算 边际 误差 ， 则 需要 对 总 体 作出 怎样 


的 假设 。 
b. 求 总 体 均 值 的 95%5 的 置信 区 间 。 
b. 95% EE > i 二 小 1 
c. 求 总 体 均 值 的 99% 的 置信 区 间 。 在 的 置信 水 平 下 ， 边 际 误差 是 多 少 ? 


99% 去 和 示爱 洲 
4. 已 知 总 体 均 值 的 95% 置 信 区 间 为 《152，160)。 如 ats 
果 oq =15， 则 研究 中 应 选用 多 大 的 样本 容量 ? 2 条 


119 115 美元 (Playbi，2006 年 1 月 )。 假 设 家 庭 





应 用 年 收入 的 平均 值 是 基于 80 个 家 庭 组 成 的 样 表 估计 
6. 尼尔森 媒体 调查 对 在 晚间 8:00 ~11:00 家 庭 看 电视 得 到 的 ， 并 且 根 据 以 往 的 研究 可 知 总 体 标 准 差 5g = 

的 时 间 进 行 了 研究 ， 研 究 中 所 用 的 数据 存放 在 名 为 30 000 美元 。 

Nielsen 的 文件 中 (《 世 界 年 鉴 》，2003 年 )。 根 据 过 a, 求 总 体 均 值 的 90% 置信 区 间 估 计 。 

去 的 研究 ， 假 定 总 体 标 准 差 已 知 ， 为 go =3.5 个 小 b. 求 总 体 均 值 的 95$ 听 置信 区 间 估 计 。 

时 。 试 求 每 个 家 庭 在 晚间 8:00 ~11:00，, 每 周 看 电 ce, 求 总 体 均 值 的 99% 置信 区 间 估 计 。 

视 时 间 均 值 的 95% 的 置信 区 间 估 计 。 d. 当 置 信 水 平 增 大 时 ， 置 信 区 间 的 宽度 如 和 何 变化 ? 
8. 研究 表明 ， 按 摩 疗 法 对 健康 保健 益处 颇 多 并 且 不 是 这 合理 吗 ? 为 什么 ? 


8.2 总 体 均 值 的 区 间 估 计 : o 未 知情 形 


在 建立 总 体 均 值 的 区 间 估 计时 ， 我 们 通常 并 没有 关于 总 体 标准 差 的 一 个 好 的 估计 。 在 这 种 情形 下 ， 我 们 必须 
利用 同一 样本 估计 伺 和 cr 两 个 未 知 参数 。 这 属于 o 未 知 (o unknown) 的 情形 。 当 利用 s 估计 og 时， 边际 误差 和 
总 体 均值 的 区 间 估 计 都 是 以 分 布 (t distribution) 的 概率 分 布 为 依据 进行 的 。 虽 然 ! 分 布 的 数学 推导 是 以 假设 抽 
样 总 体 服从 正 态 分 布 为 依据 ,但 是 研究 表明 在 许多 总 体 分 布 显著 偏离 正 态 分 布 的 情形 下 ,利用 1 分 布 的 效果 还 是 
相当 不 错 的 。 当 总 体 的 分 布 不 是 正 态 分 布 时 ， 在 本 节 稍 后 我 们 给 出 了 应 用 1 分 布 的 建议 。 

1 分布“ 是 由 一 类 相似 的 概率 分 布 组 成 的 分 布 族 ， 某 个 特定 的 上 分 布依 赖 于 称 为 自由 度 (degrees of freedom ) 


名 William Sealy Gosset 是 牛津 大 学 的 一 名 数学 研究 生 ， 笔 名 “student”， 他 在 爱尔兰 的 都 柏林 为 Guinness Brewery 工作 时 在 小 容量 材料 
和 温度 的 试验 中 发 现 了 上 分 布 。 
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的 参数 。 当 自由 度 分 别 为 1，2， 3，…， 时， 有 且 仅 有 唯一 的 :分布 与 之 相对 应 。 随 着 自由 度 的 增 大 ，: 分 布 与 标 
准 正 态 分 布 之 间 的 差别 变 得 越 来 越 小 。 图 8-4 给 出 了 自由 度 分 别 为 10 和 20 时 的 1 分 布 与 标准 正 态 概率 分 布 的 关 
系 。 我 们 注意 ， 随 着 自由 度 的 增 大 ，: 分 布 的 变异 幅度 减 小 ;与 标准 正 态 分 布 也 越 来 越 相似 。 还 注意 到 ，: 分 布 的 
均值 为 0。 

我 们 给 :加 上 下 标 以 表明 其 在 1 分布 上 侧 的 面积 。 例 如 ， 就 像 我 们 用 ws 表示 在 标准 正 态 概率 分 布 该 值 上 全 
的 面积 为 0.025 一 样 ， 我 们 用 tw 表示 在 1 分布 该 值 上 侧 的 面积 为 0.025。 一 般 地 ， 用 记号 ts 表示 在 4 分 布 中 i。 
上 侧 的 面积 为 w/2 ( 见 图 8-5)。 







标准 正 态 分 布 
1 分 布 〈 自 由 度 为 20) 
f 分布“ 自由 度 为 10) 








a i 
0 
图 8-4 ”比较 自由 度 为 10 和 20 的 上 分 布 与 标准 正 态 分 布 图 8-5 上 侧面 积 或 概率 为 a/2 的 上 分 布 
表 8-2 分 布 表 的 部 分 值 
自由 度 一 

0. 20 0. 10 0. 05 0. 025 0.01 0. 005 

1 1. 376 3.078 6. 314 12. 706 31. 821 63. 656 

2 1. 061 1. 886 2. 920 4. 303 6. 965 9. 925 
3 0. 978 1. 638 2. 353 3. 182 4. 541 5, 841 
4 0.941 1. 533 2. 132 2.776 3.747 4. 604 
5 0. 920 1. 476 2.015 2. 571 3.365 4, 032 
6 0. 906 1.440 1. 943 2. 447 3. 143 3.707 
7 0. 896 1.415 1. 895 2.365 2. 998 -3.499 
8 0. 889 1. 397 1. 860 2. 306 2. 896 3. 355 
9 0. 883 1. 383 1. 833 2. 262 2.821 3. 250 
60 0. 848 1. 296 1.671 2. 000 2. 390 2. 660 
61 0. 848 1. 296 1. 670 2. 000 2. 389 2. 659 
62 0. 847 1. 295 1.670 1. 999 2.388 2.657 


63 0. 847 1. 295 1. 669 1.998 2. 387 2.656 
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( 续 ) 
Pe 上 侧面 积 : 

0. 20 0. 10 0.05 0. 025 0.01 0. 005 
64 0. 847 1. 295 1. 669 1.998 2. 386 2.655 
65 0.847 1.295 1. 669 1. 997 2. 385 2.654 
66 0.847 1.295 1. 668 1. 997 2. 384 2.652 
67 0. 847 1. 294 1. 668 1. 996 2. 383 2.651 
68 0. 847 1. 294 1. 668 1. 995 2. 382 2. 650 
69 0.847 1. 294 1. 667 1. 995 2. 382 2. 649 
90 0. 846 1. 291 1. 662 1. 987 2. 368 2. 632 
91 0. 846 1. 291 1. 662 1.986 2. 368 2. 631 
92 0. 846 1. 291 1. 662 1. 986 2.368 2. 630 
93 0.846 1. 291 1. 661 1.986 2.367 ， 2. 630 
94 0. 845 1.291 1. 661 1. 986 2.367 2. 629 
95 0. 845 1. 291 1. 661 1. 985 2. 366 2. 629 
96 0. 845 1. 290 1, 661 1. 985 2. 366 2. 628 
97 0.845 1. 290 1.661 1. 985 2. 365 2. 627 
98 0. 845 1. 290 1. 661 1. 984 2. 365 2. 627 
99 0. 845 1. 290 1. 660 1. 984 2.364 2. 626 
100 0. 845 1. 290 1. 660 1. 984 2. 364 2. 626 
~ 0. 842 1. 282 1.645 1. 960 2. 326 2. 576 


注 : 附录 B 中 的 表 B-2 给 出 了 更 详细 的 :分 布 表 。 
附录 B 中 表 B-2 是 一 张 :分 布 表 。 表 8-2 是 该 表 的 一 部 分 。 表 中 的 每 一 行 分 别 与 某 一 自由 度 的 分布 相 对 应 。 
例如 ， 对 自由 度 为 9 的 1 分 布 ， tows =2. 262。 类 似 地 ， 对 自由 度 为 60 的 分布，towms =2.000。 随 着 自由 度 的 持续 
增 大 ， toms 趋向 于 zws =1.96“。 实 际 击 ,标准 正 态 分 布 的 z 值 可 以 在 t 分 布 表 中 自由 度 为 无 穷 的 那 一 行 ( 记 做 
o ) 找到 。 当 自由 度 超过 100 时 ， 自 由 度 为 无 穷 的 那 一 行 可 以 用 于 近似 实际 的 t 值 。 换 句 话 讲 ， 当 自由 度 大 于 100 
时 ,标准 正 态 的 z 值 是 对 i: 值 的 一 个 好 的 近似 。 


8. 2. 1 ”边际 误差 和 区 间 估 计 
在 第 8.1 节 ， 我 们 在 a 已 知 的 情形 下 给 出 总 体 均值 的 区 间 估 计 为 


一 人 
多 汪汪 
“Wn 
在 a 未 知 的 情形 下 ,为 了 计算 的 区 间 和 估计 ， 用 样本 标准 差 s 估 计 o， 用 + 分布 中 的 值 :。 代替 <。。。 于 是 ， 边 际 误 


差 为 i,ps/Yn。 利 用 该 边际 误差 ， 当 o 未 知 时 ， 总 体 均值 区 间 估 计 的 一 般 公 式 如 下 所 示 。 






由 于 用 s 作为 总 体 标准 差 o 的 估计 值 ， 所 以 在 式 (8-2) 中 与 + 值 对 应 的 自由 度 为 n -1。 样 本 标准 差 的 公式 为 


昌 ” 随 着 自由 度 的 增 大 ,分布 越 来 越 接近 于 正 态 分 布 。 
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加 YE 
"于 no1 


自由 度 是 计算 于 (x, 一 x)” 时 所 用 到 的 信息 中 独立 信息 的 个 数 。 在 计算 三 (x; -x*)” 时， 用 到 如 下 n 条 信息 : (x, - 
xz) ，(% = 和 ) ，…， (2 = 元 ) 。 在 第 3.2 节 中 ， 我 们 已 经 证 明了 对 于 任何 数据 集 亏 (x, -x*) =0。 因 此 ，(%, -x) 中 
只 有 mm = 工 项 是 独立 的 ， 即 如 果 我 们 知道 了 - 1 个 值 ， 则 由 所 有 (x; -x) 值 之 和 为 0， 可 以 确定 余下 的 值 。 于 是 ， 
与 了 (x, -x*)” 所 联系 的 自由 度 的 个 数 为 n -1， 因 此 式 (8-2) 中 :分 布 的 自由 度 为 n 一 1。 

为 演示 o 未知 的 情形 下 区 间 估 计 的 方法 ， 我们 设计 一 项 研究 用 于 估计 美国 家 庭 信用 卡 债务 的 总 体 均 值 。 由 
n=70 个 家 庭 组 成 样本 ， 他 们 的 信用 卡 余额 数据 如 表 8-3 所 示 。 在 这 种 情况 下 ,没有 关于 总 体 标准 差 e 的 先 验 佑 
计 。 因 此 ， 必 须 利 用 样本 数据 同时 佑 计 总 体 均值 和 总 体 标准 差 。 利 用 表 8-3 中 数据 ， 计 算得 到 样本 均值 *=9 312 
美元 和 样本 标准 差 s=4007 美元 。 在 95% 的 置信 水 平和 自由 度 为 n -1=69 的 情形 下 ， 查 表 8-2 可 得 ws 的 值 。 位 
于 自由 度 为 69 的 行 和 上 侧 概率 为 0.025 的 列 上 的 : 值 , to 0 =1.995。 


表 8-3 样本 中 70 个 家 庭 的 信用 卡 余额 数据 


9 430 14 661 7159 9071 9 691 11 032 
7535 12 195 8 137 3 603 11 448 6 525 
4078 10 544 9 467 16 804 8 279 5 239 
5 604 13 659 12 595 13 479 5 649 6 195 
5179 7061 7917 14 044 11 298 12 584 
4416 6 245 11 346 6817 4 353 15 415 
10676 13 021 12 806 6 845 3.467 15 917 
1 627 9719 4972 10 493 6 191 12 591 
10 112 2 200 11 356 615 12 851 9743 
6567 10 746 7117 13 627 5 337 10 324 
13 627 12 744 9 465 12.557 8 372 
18 719 5 742 19 263 6232 7 445 


我 们 利用 式 (8-2) 计算 信用 卡 余额 的 总 体 均值 的 区 间 估 计 
4007 
9312 + 1 995( -而 
总 体 均值 的 点 估计 为 9312 美元 ,边际 误差 为 955 美元 ，95% 的 置信 区 间 为 9312 -955 =8357 美元 至 9312 + 955 = 
10 267 美元 。 于 是 ， 我 们 有 95% 的 把 握 认 为 :对 于 全 部 家 庭 的 总 体 ， 信 用 卡 余额 的 均值 介 于 8357 ~ 10 267 美元 。 
在 附录 8A、 附 录 8B 和 附录 8C 中 ， 描 述 了 如 何 利 用 Minitab、Excel 和 StatTools 求 总 体 均 值 的 置信 区 间 。 在 家 
庭 信 用 卡 余额 的 研究 中 ，Minitab 区 间 估 计 程 序 的 输出 结果 见 图 8-6。70 个 家 庭 中 信用 卡 余额 的 样本 均值 为 9312 


美元 ,样本 标准 差 为 4007 美元 ， 均 值 的 标准 误差 的 估计 为 479 美元 ，95% 置信 区 间 为 (8 357，10 267 ) 。 


9 312 和 


Variable N Mean StDev SE Mean 5 :CI 
NewBalance 70 9312 A4007 A479 (8357, 10267) 


8-6 


8. 2. 2 应 用 中 的 建议 

如 果 总 体 服 从 正 态 分 布 ， 式 (8-2) 所 给 出 的 置信 区 间 是 精确 的 ， 并 且 适 用 于 任何 样本 容量 。 如 果 总 体 不 服从 正 
态 分布 ， 则 式 (8-2) 所 给 出 的 置信 区 间 是 近似 的 。 在 这 种 情形 下 ， 近 似 的 程度 依赖 于 总 体 的 分 布 和 样本 容量 。 

在 绝 大 部 分 应 用 中 ， 当 利用 式 (8-2) 建立 总 体 均 值 的 区 间 估 计时 ， 样 本 容量 ”>30 已 经 足够 大 。 然 而 ， 如 
果 总 体 的 分 布 是 严重 偏 斜 或 者 包含 异常 点 时 ， 绝 大 部 分 统计 学 家 建议 将 样本 容量 增加 到 50 或 者 更 大 。 如 果 总 体 


加 如果 总 体 的 分 布 是 严重 偏 斜 或 者 包含 异常 点 时 ， 需 要 更 大 的 样本 符 量 。 
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的 分 布 不 是 正 态 分 布 但 是 大 致 对 称 ， 则 在 样本 容量 为 15 时 便 能 得 到 置信 区 间 一 个 好 的 近似 。 仅 当 分析 人 员 坚 信 
或 者 愿意 假设 总 体 的 分 布 至 少 是 近似 正 态 时 ， 才 可 以 在 更 小 的 样本 容量 下 使 用 式 (8-2)。 


8-4 20 名 Scheer Industries 训 时 站 
8.Z 3 利用 小 样本 表 = 样本 中 - 8 ee 
在 下 面 的 例子 中 ,我 们 在 小 样本 容量 下 考虑 如 何 4 50 4 +8 
构建 总 体 均值 的 区 间 估 计 。 正 如 所 强调 的 那样 ， 在 断 人 证 
定 区 间 估计 方法 能 否 给 出 可 以 接受 的 结果 时 ， 对 总 体 。 由 站 
分 布 的 了 解 至 关 重 要 。 


Scheer Industries 考虑 使 用 一 种 新 型 的 计算 机 辅助 
程序 来 培训 员工 维修 机 器 。 为 了 对 这 种 程序 有 一 个 全 
面 的 评估 ， 生 产 负 责 人 要 求 对 维修 工 完 成 该 计算 机 辅 
助 培训 所 需 时 间 的 总 体 均 值 进行 估计 。 

选取 20 名 员 王 组 成 二 个 样本 ， 样 本 中 的 每 名 员 
工 都 完成 了 培训 计划 。 每 名 维修 工 培训 所 用 的 时 间 数 
据 如 表 8-4 所 示 (单位 : 天 ) 。 图 8-7 是 样本 数据 的 直 
方 图 。 根 据 直方 图 ， 我 们 认为 总 体 的 分 布 是 怎样 的 
呢 ? 首先 ， 样本 数据 不 能 支持 我 们 得 出 总 体 服从 正 态 





分 布 的 结论 。 但 是 ,我 们 也 没有 发 现任 何 偏 斜 或 者 异 人 
第 点 方 面 的 证 据 。 因 此 ， 根 据 上 一 节 的 提示 ， 我 们 的 训练 天 数 单 位 : 天 ) 
绪论 是 : 对 于 这 20 名 员工 组 成 的 样本 ， 以 上 分布 为 依 图 8-7 在 Scheer Industries 样本 中 培训 时 间 的 直方 图 


据 进 行 区 间 估 计 是 可 行 的 。 
计算 样本 均值 和 样本 标准 差 ， 得 到 : 





对 于 95% 的 置信 水 平和 自由 度 n -1=19， 查 附录 B 中 表 B-2,， 得 到 1 =2.093。 式 (8-2) 给 出 总 体 均值 的 区 间 估 计 为 
0. 84 
51.5 二 2| 093| 0 

总 体 均 值 的 点 估计 为 51.5 天 。 边 际 误 差 为 3.2 天 ，95% 的 置信 区 间 为 51.5 一 3.2=48.3 到 51,5 +3.2=54.7。 
利用 样本 数据 的 直方 图 了 解 总 体 的 分 布 时 ， 并 不 总 能 得 到 令 人 信服 的 结论 , 但 是 在 许多 情形 下 ， 它 给 出 了 仅 


有 的 可 利用 的 信息 。 通 常 ， 利 用 直方 图 结合 分 析 人 员 的 部 分 判断 ， 来 确定 是 否 可 以 利用 式 (8-2) 进行 区 间 估 计 。 


8. 2. 4 区 间 估 计 方 法 小 结 


我 们 给 出 了 总 体 均 值 的 区 间 估 计 的 两 种 方法 : 对 
于 ez 已 知 的 情形 ， 式 (8-1) 利用 标准 正 态 分 布 和 og 来 
计算 边际 误差 并 进行 区 间 估 计 ; 对 于 og 未 知 的 情形 ， 
式 (8-2) 利用 样本 标准 差 s 和: 分布 来 计算 边际 误差 
并 进行 区 间 估 计 。 

图 8-8 是 对 这 两 种 情形 下 区 间 估 计 方 法 的 小 结 。 在 
绝 大 部 分 应 用 中 ,样本 容量 =“=30 已 经 足够 大 。 然 而 ， 
如 果 总 体 服 从 或 者 近似 服从 正 态 分 布 ， 则 可 以 采用 更 小 由 
的 样本 容量 。 对 于 o 未 知情 形 ， 如 果 总 体 的 分 布 是 严重 “已 知 的 情 
偏 斜 或 者 包含 异常 点 时 ， 建 议 将 样本 容量 增加 到 z=50。 图 8-8 ”总 体 均值 区 间 估 计 的 方法 小 结 


51- 今 相当 光 














注释 和 评论 
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1. 当 G 已 知 时 ， 对 所 有 容量 为 n 风 的 样本 边际 误差 为 z,,(G/Yn) 是 国定 的 ， 并 且 是 相同 的 。 当 gr 未 知 时 ， 边 
际 误差 t,(s/Yn) 随 样 本 的 变化 而 变化 。 这 是 由 于 样本 标准 差 s 依赖 于 抽取 的 样本 。s 越 大 边际 误差 越 大 ， 


s 越 小 边际 误差 越 小 。 


2. 如 果 总 体 分 布 是 偏 针 的 ， 置 信 区 间 的 估计 将 如 何 变化 ?” 当 总 体 的 分 布 是 偏向 右 侧 时 ， 数 据 中 大 的 值 将 分 布 
拉 向 右 侧 。 在 这 种 偏 锋 下 ， 样 本 均值 和 样本 标准 差 s 是 正 相关 的 。 较 大 的 s 与 较 大 的 值 相 对 应 。 于 是 ， 
当 元 大 于 总 体 均 值 时 ，8 将 大 于 oo。 这 种 偏 斜 使 得 边际 误差 ts(s/Yn】 大 于 a 已 知情 形 的 边际 误差 为 
zs(0/Yn)。 与 使 用 og 的 真 值 相 比 ， 大 的 边际 误差 所 对 应 的 置信 区 间 将 以 更 大 的 可 能 性 将 总 体 均值 几 包括 
在 内 。 但 是 ， 当 样本 均值 无 小 于 总 体 均 值 时 ,元 和 8 的 相关 性 使 得 边际 误差 较 小 。 在 这 种 情形 下 ,与 o 已 
知 从 而 可 用 相 比 ， 较 小 的 边际 误差 所 对 应 的 置信 区 闻 将 以 更 小 的 可 能 性 将 总 体 均值 凡 包 括 在 内 。 出 于 这 种 
原因 ， 我 们 建议 在 总 体 分 布 严 重 偏 斜 时 采用 更 大 的 样本 容量 。 


方法 


12. 


14. 


下 面 各 种 情形 下 中 ，t 值 为 多 少 ? 

a， 自 由 度 为 12， 上 侧面 积 为 0.025。 

b. 自由 度 为 50， 下 侧面 积 为 0. 05。 

自由 度 为 30， 上 侧面 积 为 0.01。 

d.， 自由 度 为 25， 两 个 上 1 值 之 间 面 积 为 90% 。 

e， 自 由 度 为 45， 两 个 t+ 值 之 间 面 积 为 95% 。 

一 个 简单 随机 样本 由 n=54 项 组 成 ， 样 本 均值 为 
22.5， 样 本 标准 差 为 4.4。 

a. 求 总 体 均 值 的 90% 置 信 区 间 。 

b. 求 总 体 均值 的 95% 置信 区 间 。 

c. 求 总 体 均 值 的 99% 置 信 区 间 。 

d.、 当 置信 水 平 增 大 时 ， 边 际 误差 和 置信 区 间 如 何 变化 ? 


HF 


应 用 


16. 


wis. 


40 家 企业 的 债券 组 成 一 个 样本 ， 到 期 年 数 和 获 利 的 
数据 存放 在 名 为 CorporateBonds 的 文件 中 (f《 巴 伦 周 
刊 》，2012 年 4 月 2 日 )。 
a. 求 企业 债券 到 期 年 数 的 样本 均值 和 样本 标准 差 。 
b. 求 到 期 年 数 的 总 体 均 值 的 95% 置 信 区 间 估 计 。 
c. 求 企业 债券 获 利 的 样本 均值 和 样本 标准 差 。 
d. 求 企业 债券 获 利 的 总 体 均 值 的 明 % 置 信 区 间 估 计 。 
年 龄 越 大 的 人 通常 越 难 找 工作 。 美 国 退 休 协 会 
(AARP) 报道 了 年 龄 55 岁 及 以 上 的 人 找 工 作 时 所 
耗费 的 时 间 (单位 周 )。 数 据 存 放 在 名 为 Job- 
Search 的 文件 中 (AARP Bulletin，2008 年 4 月 )。 
a. 求 年 龄 55 岁 及 以 上 的 人 找 工作 时 所 耗费 时 间 的 
总 体 均值 的 点 估计 。 


20. 


Dw; 





b. 在 95% 的 置信 水 平 下 ， 边 际 误差 是 多 少 ? 
c. 估计 均值 的 95% 置 信 区 间 。 

d. 讨论 样本 数据 的 偏锋 程 度 。 若 再 次 展开 研究 ， 

你 有 何 建 议 ? 

你 所 喜爱 的 电视 节目 是 否 经 常 被 广告 打 断 ? 美国 全 国 
广播 公司 财经 频道 (CNBC) 统计 了 半 个 小 时 的 情景 
喜剧 时 间 段 中 ， 节 目 播 出 的 平均 时 间 长 度 (CNBC， 
2006 年 2 月 23 日 )。 调 查 数据 如 下 (单位: 分钟): 


21. 06 22. 24 20. 62 21.66 21. 23 
23. 86 23, 82 20, 30 21; $2 21732 
21. 91 23. 14 20. 02 22,..20 21,20 
KF 22. 19 22. 34 23, 36 23. 44 


假设 总 体 近 似 服从 正 态 分 布 ， 试 求 在 半 个 小 时 的 情 
景 喜 剧 时 间 段 中 ,节目 播 出 时 间 平 均 长 度 的 点 估计 
及 95% 的 置信 区 间 估 计 。 

2009 年 4 月 ， 迪士尼 的 电影 《 蒙 塔 娜 . 汉 娜 ) 恰 
过 复活 节 的 周末 上映。 在 周末 的 三 天 当中 ， 成 为 
最 具 票 房 吸引 力 的 电影 (《 华 尔 街 日 报 》，2009 年 
4 月 13 日 )。 由 25 家 剧院 组 成 一 个 样本 ， 它 们 的 
票房 收入 如 下 (单位 美元 ) 


20 200 10 150 13 000 11 320 9 700 
8 350 7 300 14 000 9 940 11 200 
10 750 6 240 12 700 7 430 13 500 
13 900 4 200 6 750 6 700 9 330 
13 185 9 200 21 400 11 380 10 800 


a 求 每 家 剧院 票房 收入 均值 的 95 置信 区 间 。 解 
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释 这 个 结果 。 c. 该 部 影片 已 经 在 3 118 家 剧院 上 映 。 千 计 观 看 电 
b， 电影 票 的 价格 是 每 张 7. 16 美元 ， 试 估计 每 家 影 影 《 蒙 塔 娜 ， 汉 娜 ) 的 观众 总 人 数 ， 并 估计 周 
人 院 平均 观 影 人 数 。 末 三 天 当中 的 票房 总 收入 。 


8.3 样本 容量 的 确定 


在 前 文 的 应 用 建议 中 ， 当 总 体 不 服从 正 态 分 布 时 ,我 们 重点 讨论 了 样本 容量 在 得 到 好 的 置信 区 间 中 的 作用 。 
在 本 节 ， 我们 重点 介绍 与 样本 容量 有 关 的 另 一 个 问题 ， 说 明 如 何 确定 足够 的 样本 容量 以 达到 所 希望 的 边际 误差 “。 
为 理解 这 一 方法 如 何 实施 的 ， 我们 回 到 第 8. 1 节 e 已 知 的 情形 。 根 据 式 (8-1) ， 区 间 估 计 为 
人 0 赴 交 _ 后 
za(o/ym) 是 边际 误差 。 于是， 我 们 看 到 : 值 zx、 总体 标准 差 o 和 样本 容量 共同 确定 了 边际 误差 。 一 旦 选择 
了 置信 系数 1 -aw，zu: 就 确定 了 。 然 后 ， 如 果 ao 的 值 已 知 ， 我 们 就 可 以 确定 达到 希望 的 边际 误差 所 需 的 样本 容量 
no 以 下 是 用 于 计算 所 需 样本 容量 mn 的 公式 。 


令 忆 代表 希望 达到 的 边际 误差 
已 =z ,二 
i 
解 出 /#5， 得 到 
Vn = 2 





将 上 式 两 边 平方 ， 得 到 样本 容量 的 如 下 表达 式 。 





在 给 定 的 置信 水 平 下 ， 这 一 样本 容量 能 达到 希望 的 边际 误差 。 

在 式 (8-3) 中 , E 值 是 使 用 者 可 接受 的 边际 误差 ，z,, 可 直接 由 区 间 估 计 中 所 用 到 的 置信 水 平 确定 。 虽 然 不 
同 的 使 用 者 有 各 自 的 偏好 ,但 95% 的 置信 水 平 仍 是 最 常见 的 选择 (zo0s =1.96)。 

最 后 ,， 式 (8-3) 要 求 总 体 标准 差 er 的 值 必须 是 已 知 的 。 但 是 ， 即 使 o 是 未 知 的 ， 只 要 我 们 能 给 出 o 的 初始 
值 或 计划 值 ， 仍 可 以 使 用 式 (8-3)。 在 实践 中 ， 可 选择 以 下 方法 之 一 来 确定 o 的 值 ”。 

1. 根据 以 前 研究 中 的 数据 计算 总 体 标准 差 的 估计 值 作为 o 的 计划 值 。 

2. 利用 实验 性 研究 ， 选 取 一 个 初始 样本 ， 以 初始 样本 的 标准 差 作 为 e 的 计划 值 。 

3 o 值 进行 判断 或 最 优 猜测 。 例如 ， 我 们 可 以 分 别 估计 总 体 的 最 大 值 和 最 小 值 ， 两 者 之 差 是 对 数据 极 差 的 
估计 。 一 般 建议 将 极 差 除 以 4 做 为 标准 差 o 的 粗略 估计 ， 从 而 最 终 得 到 一 个 可 以 接受 的 ce 的 计划 值 。 

下 面 ,我 们 举例 说 明 如 何 利用 式 (8-3) 来 确定 样本 容量 。 对 美国 汽车 租赁 成 本 的 已 有 调查 研究 发 现 ， 租 赁 
一 辆 中 型 汽车 的 平均 费用 大 约 为 每 天 55 美元 。 假 定 该 项 研究 的 组 织 者 想 要 进行 一 项 新 的 调查 ， 对 在 美国 一 辆 中 
型 汽车 的 租赁 费用 的 总 体 均值 进行 估计 。 在 新 研究 的 设计 中 ， 当 项 目 负责 人 估计 每 天 租赁 费用 的 总 体 均值 时 ， 设 
定 置信 水 平 为 95% ， 边 际 误差 为 2 美元 。 

该 负责 人 已 设 定 边际 误差 瑟 =2， 在 95 鳃 的 置信 水 平 下 mms =1.96， 因 此 在 计算 所 需 的 样本 容量 时 ， 仅 需要 已 
知 总 体 标准 差 o 的 计划 值 。 此 时 ， 分析 人 员 回 顾 先 前 研究 中 的 样本 数据 发 现 ， 每 天 租赁 费用 的 样本 标准 差 为 9. 65 


昌 如 果 在 抽样 之 前 就 选 定 了 所 希望 的 边际 误差 E， 则 本 节 的 方法 能 用 于 确定 的 必要 的 样本 容量 ， 使 得 所 要 求 的 边际 误差 得 到 满足 。 
已 式 (8-3) 所 给 出 的 是 满足 所 要 求 的 边际 误差 所 需 的 最 优 样本 容量 。 但 是 ， 可 以 根据 分 析 者 的 判断 来 确定 是 否 将 最 终 增 大 样本 容量 。 
易 。 在 确定 样本 容量 之 前 必须 设 定 总 体 标准 差 o 的 计划 值 。 这 里 讨论 了 得 到 o 的 计划 值 的 三 种 方法 。 


美元 。 将 9; 65 作为 o 的 计划 值 ， 得 到 


(区 六 基 Fr 
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2 » 
(1.96) 风 (9. .65 ) = 89 43 


因此 ， 在 新 研究 中 为 达到 项 目 负责 人 所 指定 的 边际 误差 2 美元 ， 样 本 中 至 少 应 该 选取 89. 43 笔 中 型 汽车 租赁 业务 。 当 计 
算得 到 的 样本 容量 不 是 整数 时 ， 建 议 使 用 取 下 一 位 整数 为 样本 容量 。 因 此 ， 建 议 样 本 容量 为 9 笔 中 型 汽车 租赁 业务 。 





方法 


六 24. 


估计 一 组 数据 的 极 差 为 36 ， 试 求 : 

a. 总 体 标 准 差 的 计划 值 是 多 少 ? 

b. 在 95 名 的 置信 水 平 下 ， 当 边际 误差 为 3 时 应 选 
取 多 大 的 样本 容量 ? 

c. 在 95% 的 置信 水 平 下 ， 当 边际 误差 为 2 时 应 选 
取 多 大 的 样本 容量 ? 


应 用 


20. 


28. 


8. 4 


据 美 国 能 源 信 息 协 会 (US EIA) 报道 ， 普通 汽油 
的 平均 价格 为 每 加 仓 3.94 美元 (US EIA 网 站 ， 
2006 年 2 月 23 日 )。US EIA 每 周 更 新 其 对 汽油 均 
价 的 估计 。 假 定 每 加 仑 普通 汽油 价格 的 标准 差 为 
0.25 美元 ， 若 在 95% 置信 度 下 ， 按 如 下 边际 误差 
报道 油价 时 ， 应 该 选取 多 大 的 样本 容量 ? 

a 所 期 望 的 边际 误差 为 0. 10 美元 。 

b. 所 期 望 的 边际 误差 为 0.07 美元 。 

c. 所 期 望 的 边际 误差 为 0.05 美元 。 

ShareBuilder 是 一 名 退休 计划 建议 师 ， 根 据 他 和 哈里 
斯 互动 进行 的 一 项 在 线 调查 报告 ， 女 企业 主 当 中 有 
60% 的 人 不 能 确保 自己 目前 为 退休 所 做 的 储蓄 是 足 


在 本 章 前 言 中 ,我们 给 出 总 体 比率 p 的 区 间 估 计 的 一 般 形 


式 为 


在 计算 区 间 估 计 的 边际 误差 时 ，p 的 抽样 分 布 至 关 重 要 。 
在 第 7 章 ， 我们 已 经 证 明了 当 np 宇 5 和 nn(1 -p) 宇 5 时 5 的 
抽样 分 布 近似 服从 正 态 分 布 ， 图 8-9 给 出 了 的 抽样 分 布 的 正 态 
近似 。5 的 抽样 分 布 的 均值 是 总 体 比 率 p, 5 的 标准 差 为 


PP 主 边际 误差 


we = 


F n 


30. 


(8-4) 


es 

够 的 (SmallBiz，2006 年 冬 )。 假 定 我 们 想 要 做 一 项 

后 续 研究 ， 确 定 女 企业 主 每 年 为 退休 所 做 的 储蓄 人 额 

有 多 少 ， 并 且 希 望 总 体 均 值 区 间 估 计 的 边际 误差 为 

100 美元 。 取 标准 差 的 计划 值 为 1 100 美元 ， 则 在 下 

列 情形 下 ， 建 议 选 取 多 大 的 样本 容量 ? 

a 构建 储蓄 额 均值 的 90% 的 置信 区 间 。 

b. 构建 储蓄 额 均值 的 95% 的 置信 区 间 。 

c. 构建 储蓄 额 均值 的 99% 的 置信 区 间 。 

出 当 边 际 误差 国定 不 变 时 ， 增 大 置信 水 平 将 引起 
样本 容量 如 何 变化 ? 你 建议 采用 99% 的 置信 区 
间 吗 ? 为 什么 ? 

在 过 去 几 年 中 ， 人 们 特别 是 年 轻 人 表现 出 不 愿 驾 

驶 的 趋势 8。 2001 ~ 2009 年 ，16 ~34 岁 年 龄 段 人 中 

每 人 每 年 旅行 的 车 英里 数 从 10 300 下 降 到 7 900 

(DU. S. PIRG 和 教育 基金 网 站 ，2012 年 4 月 6 目 )。 

假设 2009 年 的 标准 差 为 2000 英里 。 假 定 你 要 进行 

一 个 调查 ， 对 目前 16 34 岁 年 龄 段 人 中 每 人 每 年 

的 车 -英里 进行 区 间 和 估计 ， 若 边际 误差 为 100 英 

里 ， 则 目前 的 调查 中 应 采用 多 大 的 样本 容量 ? 取 

95% 的 置信 水 平 。 








图 8-9 5 的 抽样 分 布 的 正 态 近似 


日 式 (8-3) 所 给 出 的 是 满足 所 希望 的 边际 误差 所 需要 的 最 小 样本 容量 。 如 果 计 算得 到 的 样本 容量 不 是 整数 ， 则 建议 使 用 取 下 一 位 整数 为 样本 


容量 ， 这 时 的 边际 误差 比 所 要 求 的 边际 误差 略 小 。 
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由 于 互 的 抽样 分 布 服 从 正 态 分 布 ， 如 果 在 总 体 比 率 的 区 间 估 计 中 选择 xcz 作 为 边际 误差 ， 则 所 得 到 的 区 间 中 有 
100 (1 -a)% 将 真实 的 总 体 比 率 包含 在 内 。 但 是 ， 由 于 p 未 知 ， 在 计算 边际 误差 时 不 能 直接 使 用 o;。 于 是 ， 我 们 
需要 估计 p， 用 代替 p。 在 总 体 比 率 的 区 间 估 计 中 ， 边 际 误差 为 

廊 际 访 守 2 (8-5) 


n 


总 体 比 率 的 区 间 估 计 的 一 般 公式 如 下 。 





下 面 的 例子 说 明了 如 何 计算 总 体 比率 的 边际 误差 和 区 间 估 计 。 美 国 对 900 名 女子 高 尔 夫 运 动员 进行 了 一 项 全 
国 性 调查 ， 以 便 掌握 女子 高 尔 夫 运动 员 如 何 看 待 她 们 在 高 尔 夫 球场 所 受到 的 待遇 。 调 查 显 示 ， 有 396 名 女子 高 尔 
夫 运 动员 对 开 球 时 间 的 合理 性 感到 满意 。 于 是 ， 女 子 高 尔 夫 运 动员 中 对 开 球 时 间 的 合理 性 感到 满意 的 总 体 比率 的 
点 估计 为 396/900 =0.44。 根 据 式 (8-6) 并 取 置 信 水 平 为 95% ， 可 得 


0.44 + 1.96 EE 人 


0. 44 + 0.0324 
因此 ,边际 误差 为 0.0324， 总 体 比 率 的 95% 置信 水 平 的 区 间 估 计 为 (0. 4076, 0.4724) 。 ,车 用 百分数 来 表示 ， 调 


查 结果 使 我 们 可 以 认为 在 95% 的 慎 信 水 平 下 全 部 女子 高 尔 夫 运 动员 中 对 开 球 时 间 pn 比率 在 
40. 76% ~47.24% 。 





下 硬 和 作 渤 _ 直 堵 由 地 晴 尖 的 站 训 冰 平 下 ; 应 选取 多 大 的 样本 容量 来 估计 总 体 比率 。 总 体 比率 的 区 间 估 计 
中 确定 样本 容量 的 原理 与 第 8.3 节 中 总 体 均值 的 区 间 估 计 中 样本 容量 的 确定 完全 类 似 。 

在 本 节 开 始 ， 与 总 体 比率 的 区 间 估 计 相 联系 的 边际 误差 为 ,sv 现 T 一 姜 75 ， 它 由 zs。、 样 术 比 率 5 和 样本 容 
量 n 共同 确定 。 样 本 容量 越 大 ， 则 边际 误差 越 小 ， 精 度 越 高 。 

令 忆 代表 所 希望 达到 的 边际 误差 ， 则 








对 该 方程 关于 n 求解 ， 得 到 边 





误差 为 E 时 所 需 样本 容量 的 公式 。 
_ (zn ) p(l 梧 p) 
到 





注意 ， 此 时 由 于 抽样 前 5 是 未 知 的 ， 因此 上 式 并 不 能 用 于 计算 达到 预期 的 边际 误差 所 需要 的 样本 容量 。 于 是 , 计算 
中 我 们 需要 一 个 F 的 计划 人 令 P 表示 的 计划 值 ， 则 式 (8-7) 可 用 于 计算 边际 误差 为 瑟 时 所 需 的 样本 容量 。 





钊 “在 求 比率 的 区 间 估 计时 ， 边 际 误差 是 z ，V 克 IT- 闸 77。 
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实践 中 ， 可 选择 如 下 方法 来 确定 计划 值 p”。 

(1) 用 以 前 相同 或 类 似 样本 的 样本 比率 来 代替 。 

(2) 利用 实验 性 的 研究 ， 选 取 一 个 初始 样本 ， 以 该 样本 的 样本 比率 作为 计划 值 p* 。 

(3) 使 用 判断 或 最 优 猜测 作为 p 值 。 

(4) 如 果 上 述 方法 均 不 适用 ， 则 取 计 划 和 值 p” =0. 5。 

我 们 仍 回 到 对 女子 高 尔 夫 运 动员 的 调查 中 去 。 假 设 公 司 想 通过 一 项 新 的 调查 来 估计 目前 女子 高 尔 夫 运 动员 中 
对 开 球 时 间 的 合理 性 感到 满意 的 总 体 比率 。 在 95% 的 置信 水 平和 边际 误差 为 0.025 的 条 件 下 ， 调 查 组 织 者 对 总 体 
比率 进行 估计 时 应 选取 多 大 的 样本 容量 ? 由 五 =0.025 和 z,,=1.96， 我 们 还 需要 计划 值 p' 方 能 回答 所 需 样本 容量 
的 问题 。 将 上 一 次 的 调查 结果 =0.44 作为 计划 值 p” ,根据 式 (8-7)， 有 

ee (zn) PP (1-p°) (96) x0.44 x (1 -0.44) 和 
0. 025” 

因此 ， 为 达到 所 要 求 的 边际 误差 ， 样 本 容量 至 少 应 为 1 514.5 人 人 。 我 们 取 下 一 个 整数 ， 则 为 达到 所 要 求 的 边际 误 
差 ， 建议 由 1515 名 女子 高 尔 夫 运 动员 组 成 一 个 样本 。 

在 选择 计划 值 p' 时 ,我们 所 推荐 使 用 的 第 四 种 方法 为 取 p ”=0.5。 在 没有 其 他 信息 可 用 时 ; p" 通常 取 此 值 。 
式 (8-7) 的 分 子 表明 样本 容量 与 数值 P (1-P ) 成 表 8:5 p' (1-p") 的 一 些 可 能 条 
正比 , P (1 -5 ) 的 值 越 大 则 样本 容量 越 大 。 表 8-5 oe ry 
维 而 了 p' (1 -yp ) 的 一 些 可 能 值 ， 当 p* =0.5 时 ， Oi 0. 1 x0.9 =0.09 
p" (1 -p") 的 值 达到 最 大 。 因 此 ， 当 我 们 不 能 确定 0.3 -03x07=0,21 
计划 值 取 何 值 时 ， 由 ”=0.5 所 计算 得 到 的 样本 容量 0.4 0.4x0.6=0.24 
最 大 。 实 际 上 ， 出 于 保险 的 原则 ， 我 们 建议 使 用 最 大 0.5 0.5x0.5=0.25 + 一 一 一 p"(1-p") 的 最 大 值 


的 样本 容量 。 如 果 能 够 证 明 样 本 比率 不 是 计划 值 0. 5， 0.6 0.6x0.4=0.24 
则 边际 误差 比 预 期 的 要 小 。 因 此 ， 取 ”=0.5 计算 出 07” ”7TxL3=021 
的 样本 容量 足以 保证 达到 希望 的 边际 误差 。 SN 


i ta 人， we =0.5 时 样本 容量 为 


因此 建议 采用 稍 大 的 样本 容量 一 一 选取 1 537 名 女子 高 尔 夫 运 动员 组 成 样本 。 
注释 和 评论 
在 估计 总 体 比率 时 ， 边 际 误差 几乎 总 是 小 于 或 等 于 0.10。 在 诸如 盖 洛 普 和 哈里 斯 所 进行 的 全 美 范围 的 公众 民 


意 调查 中 ， 边 际 误差 一 般 为 0.03 或 0.04。 根 据 这 样 的 边际 误差 ， 由 式 (8-7) 所 给 出 的 样本 容量 一 般 都 是 足够 大 
的 ， 满 足 条 件 p 宇 5 和 ml1-p) 三 5， 从 而 可 以 用 正 态 分 布 近似 过 的 抽样 分 布 。 
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方法 应 用 

32. 800 个 个 体 组 成 一 个 简单 随机 样本 ， 样 本 上 比率 为 36. 据 CNBC 的 统计 报告 ， 没 上 保险 的 机 动车 的 数量 令 
五 =0.7。 人 吃惊 (CNBC ,2006 年 2 月 23 日 )。 与 CNBC 的 
a. 求 总 体 比 率 的 '90 和 置信 区 间 。 报道 一 致 ， 抽 样 结果 显示 在 200 辆 机 动车 中 有 46 
b. 求 总 体 比率 的 95% 置信 区 间 。 辆 没有 上 保险 。 

34. 在 95 纺 的 置信 水 平 下 ， 边 际 误差 为 0.03 时 ， 为 了 a. 试 求 机 动车 没有 上 保险 的 比率 的 点 估计 。 
估计 总 体 比率 ， 应 采用 多 大 的 样本 容量 ? 假设 不 能 b. 建立 总 体 比 率 的 95% 的 置信 区 间 。 


根据 历史 数据 得 到 计划 值 p”。 38. 据 汤姆 森 金 融 公司 称 ， 到 2006 年 1 月 25 日 为 止 ， 
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大 部 分 公司 公布 的 利润 都 比 估 计 的 要 高 (《 商 业 周 

刊 》，2006 年 2 月 6 日 )。 由 162 家 公司 组 成 的 一 

个 样本 显示 ， 有 104 家 的 利润 比 估计 的 高 ，29 家 

的 利润 与 估计 相符 ，29 家 的 利润 低 于 估计 。 

a. 求 利 润 低 于 估计 的 公司 所 占 比 率 的 志 估 计 。 

b. 试 求 边际 误差 并 给 出 利润 高 于 估计 的 公司 所 
占 比 率 的 95% 的 置信 区 间 。 

c. 要 达到 预期 的 边际 误差 0.05， 需 要 多 大 的 样本 
容量 ? 

40. 企业 多 年 来 一 直 与 不 断 增 长 的 医疗 保健 费用 作 斗 
争 。 最近， 由 于 较 低 的 通货 膨胀 和 座 员 支付 较 大 比 
例 的 医疗 保健 福利 金 ， 使 得 医疗 保健 费用 的 增长 速 
度 放 缓 。 最 近 ，Mercer 的 一 项 调查 显示 ，2009 年 
美国 52% 的 雇主 要 求 员工 分 担 更 多 的 医疗 保健 费 
用 (《 商 业 周 刊 》，2009 年 2 月 16 上 日 )。 假 设 ,， 调 
查 中 样本 是 由 800 家 公司 组 成 ， 计 算 边 际 误差 ， 并 





本 章 我 们 给 出 了 对 总 体 比率 和 总 体 均 值 进行 区 间 
估计 的 方法 。 点 和 估计 量 可 能 是 也 可 能 不 是 总 体 参数 的 
好 的 估计 。 利 用 区 间 估 计 可 以 对 估计 的 精确 程度 予以 
和 度量。 总体 均值 和 总 体 比 率 的 区 间 估 计 都 采用 如 下 和 形 
式 : 点 估计 土 边 际 误差 。 

在 两 种 情形 下 ， 我 们 分 别 介 绍 了 总体 均值 的 区 间 
估计 。 在 er 已 知情 形 下 ， 抽 样 前 利用 历史 数据 以 及 其 
他 信息 对 er 进行 了 估计 。 于 是 ， 在 根据 新 的 样本 数据 
进行 分 析 时 ， 可 以 假设 og 已 知 。 在 gg 未 知情 形 下 ， 利 
用 样本 数据 同时 估计 总 体 均 值 和 总 体 标准 差 。 最 终究 
竟 选 择 哪 二 种 区 间 估 计 方 法 ， 依 赖 于 分 析 人 员 认 为 何 
种 方法 能 给 出 对 g 的 最 佳 估 计 。 

在 go 已 知情 形 下 ， 基 于 假设 的 og 人 和 值 并 利用 标准 正 
态 分 布 进行 区 间 估 计 。 在 og 未 知情 形 下 ， 基 于 样本 标 
准 差 并 利用 zt 分 布 进行 区 间 估 计 。 在 这 两 种 情形 下 ， 
所 得 到 的 区 间 估 计 的 质量 取决 于 总 体 的 分 布 和 样本 容 





interval estimate ”区间 估计 总 体 参 数 估 计 值 的 一 个 
区 间 ， 确 信 该 区 间 将 参数 值 纳 入 其 中 。 在 本 章 中 ， 
区 间 估 计 的 形式 是 : 点 估计 十 边际 误差 。 

margin of error 边际 误差 为 了 建立 总 体 参 数 的 区 间 
估计 ， 从 点 估计 秆 加 上 或 减 去 的 值 。 

o known oa 已 知 在 进行 抽样 之 前 ， 若 历史 数据 或 者 


在 95% 的 置信 水 平 下 ， 建 立 2009 年 雇主 要 求 员工 
分 担 更 多 的 医疗 保健 费用 的 公司 所 占 比 率 的 置信 
区 闻 。 

42. 6 月 ， 对 491 名 潜在 选民 就 总 统 大 选 进 行 了 一 项 民 
意 调 得 。 本 次 民意 调查 的 主要 目的 是 ， 估 计 潜 在 
选民 中 对 每 位 候选 人 的 支持 率 。 假 设计 划 值 P ”= 
0.50， 取 置信 水 平 为 95% 。 

a 对 p+ =0.50, 6 月 的 民意 调查 中 计划 的 边际 误 
差 为 多 少 ? 

b. 临近 11 月 大 选 前 夕 ， 希望 达到 更 高 的 精确 度 和 
更 小 的 边际 误差 。 假 设 对 总 统 大 选 期 间 所 进行 
的 调查 要 求 满足 如 下 边际 误差 ， 则 每 次 调查 中 
建议 选取 多 大 的 样本 容量 ? 


调查 时 间 


边际 误差 


调查 时 间 边际 误差 





T 


量 。 如 果 总 体 服从 正 态 分 布 ， 则 即使 在 小 样本 时 这 两 
种 情形 所 得 到 的 区 间 估 计 都 是 精确 的 。 如 果 总 体 不 服 
从 正 态 分 布 ， 则 所 得 到 的 区 间 估 计 都 是 近似 的 。 样 本 
容量 越 大 ， 近 似 程度 越 好 。 与 正 态 分 布 相 比 ， 总 体 的 
偏 斜 程度 越 大 ， 要 想得到 更 好 的 近似 ， 需 要 的 样本 容 
量 也 越 大 。 第 8.1 节 和 第 8.2 节 中 ， 对 达到 好 的 近似 
应 使 用 多 大 的 样本 容量 提出 了 实践 应 用 的 建议 。 在 大 
多 数 情况 下 ,， 30 或 者 更 大 的 样本 容量 将 保证 能 给 出 置 
信 区 闻 一 个 好 的 近似 。 

总 体 比 率 的 区 间 和 估计 的 一 般 形式 为 : 了 十 边际 误 
差 。 实际 应 用 中 ， 对 党 和 体 比 率 进行 区 间 估 计时 ， 通常 
要 求 样本 容量 为 大 样本 。 因 此 ， 区 间 估 计 是 依据 标准 
正 态 分 布 进 行 的 。 

在 开展 一 项 抽样 计划 之 前 ， 通 常 先 设 定 一 个 希望 
达到 的 边际 误差 。 我 们 说 明 如 何 选 择 足够 大 的 样本 容 
量 来 达到 所 希望 的 精度 。 


一 


其 他 信息 给 出 了 总 体 标准 差 的 一 个 好 的 近似 ; 称 这 

种 情形 为 qo 已 知 。 在 区 间 估 计 中 利用 这 个 已 知 的 
值 计 算 边 际 误差 。 

confidence level 置信 水 平 “与 区 间 估 计 相 联系 的 置 
信 度 。 例 如 ， 在 使 用 区 间 和 估计 方法 得 到 的 全 部 区 间 

中 ， 如 果 有 95% 的 区 间 和 包 全 总 体 参 数 在 内 ， 则 称 区 








间 估 计 是 在 95% 的 置信 水 平 下 构建 的 。 
confidence coefficient 置信 系数 ”用 小 数 形式 表示 的 
置信 和 水平。 比如，95% 置信 水 平 的 置信 系数 为 0. 95。 
confidence interval 置信 区 间 ”区间 估 计 的 另 一 种 巴 法 。 
0 Unknown o 未知 在 进行 抽样 之 前 ， 更 普遍 的 情形 
是 没有 信息 可 用 于 估计 总 体 标准 差 er。 我 们 称 这 种 
情形 为 go 未知。 这 时 ,在 区 间 估 计 中 计算 边际 误差 


一 一 AR 
ES 


总 体 均 值 的 区 间 估 计 : or 已 知 





多 土 z 7 


(8-1) 


Vn 


总 体 均值 的 区 间 估 计 : e 未 知 


(8-2) 


三 S 
“者 息 壤 - 二 


总 体 均 值 的 区 间 估 计 中 所 需 的 样本 容量 


补充 by 3 
从 A dN 





易 股 价 50 美元 的 股票 手续 费 的 均值 为 33.77 美元 / 

百 股 (441 Journal，2006 年 2 月 )。 这 样 的 调查 每 

年 进行 ， 根 据 可 得 的 历史 数据 ， 假 定 已 知 总 体 标 准 

差 为 15 美元 。 

a. 利用 样本 数据 ， 求 与 95% 置信 区 间 相 对 应 的 边 
际 误差 。 

b. 当 交 易 股 价 50 美元 的 股票 时 ， 求 手续 费 的 均值 
的 95% 置信 区 间 。 

46. 美国 50 岁 及 以 上 年 龄 的 人 口 达 9200 万 ， 他 们 掌握 
了 整个 可 支配 收入 的 50% ( AARP Bulletin，2008 
年 3 月 )。 据 美国 退休 人 员 协 会 (AARP) 估计 ， 
在 这 一 年 龄 段 食堂 和 外 卖 的 年 人 均 消 费 为 1873 美 
元 。 假定 样 本 由 80 名 民众 组 成 ， 并 且 样 本 标准 差 
为 550 美元 。 

a 当 置 信 度 为 935% 时 ， 边 际 误 差 为 多 大 ? 

b. 求 用 于 食堂 和 外 卖 上 的 消费 额 的 总 体 均 值 的 
95% 置信 区 间 。 

c. 估计 美国 50 岁 及 以 上 年 龄 的 人 用 于 食堂 和 外 卖 
上 的 消费 是 多 少 ? 

d. 如果 食堂 和 外 卖 上 的 消费 额 是 右 偏 的 ， 那 么 你 
预计 消费 额 的 中 位 数 是 大 于 还 是 小 于 1 873 
美元 ? 






44. 对 54 名 贴现 票据 经 纪 人 的 一 个 抽样 调查 显示 ， 交 
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时 用 的 是 样本 标准 差 s。 
tdistribution”+ 分 布 一 类 概率 分 布 。 当 总 体 标准 差 o 
未 知 而 用 样本 标准 差 s 对 其 进行 估计 时 ， 该 分 布 用 
于 建立 总 体 均 值 的 区 间 估 计 。 
degrees of freedom 自由 度 上 分 布 的 参数 ， 当 上 分 
布 用 于 计算 总 体 驳 值 的 区 间 估 计时 ， 其 自由 并 为 - 
1， 其 中 严 是 样本 容量 。 


Cab 6 go 
/1 


Ee (8-3) 
总 体 比 率 的 区 间 估 计 
i CA (8-6) 
总 体 比 率 的 区 间 人 和 估 计 中 所 需 的 样本 容量 
Ne (8.7) 
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六 48. 美国 合众国 航空 的 大 量 研 究 表明 ,鼓励 那些 因 频 


繁 飞行 而 享有 里 程 积分 的 乘客 通过 在 线 的 方式 确 

定 里 程 和 安排 飞行 奖励 ， 这 可 以 从 根本 上 节省 开 

支 《US Airways Attache，2003 年 2 月 )。 一 项 研究 

搜集 了 通过 电话 确定 里 程 和 安排 飞行 奖励 时 所 用 

时 间 的 数据 ， 通过 电话 安排 150 次 飞行 奖励 所 需 时 

间 的 数据 (单位; 分 ) 组 成 一 个 样本 ， 存 放 在 名 

为 Flights 的 数据 集中 。 请 借助 Minitab 或 者 Excel 

回答 下 列 问 题 。 

a. 求 通过 电话 方式 安排 飞行 奖励 所 需 时 间 的 样本 
均值 。 

b. 求 通过 电话 方式 安排 飞行 奖励 所 需 时 间 的 总 体 
均值 的 95% 置 信 区 间 。 

c. 假设 一 家 电话 订 票 代理 处 每 天 工作 7.5 个 小 时 ， 
则 预计 一 和 天 中 这 家 电话 订 票 代理 处 能 够 处 理 多 
少 笔 飞行 奖励 ? 

d, 讨论 : 为 什么 说 这 一 信息 文 持 美国 合众国 航空 
采用 在 线 系统 以 降低 成 本 的 计划 ? 

50. 对 某 种 型 号 汽车 进行 了 一 项 里 程 测 试 。 如 果 和 希望 
达到 的 边际 误差 为 1 公里 /加 合 ， 则 测试 中 应 选取 
多 少 辆 汽车 ? 取 置 信和 水 平 为 98%， 并 假设 里 程 预 
测试 表明 标准 差 为 2.6 英里/ 加仑。 

52.《 商 业 周 刊 》 的 年 度 薪 酬 调 查 (Annual Pay Survey) 
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公布 了 首席 执行 官 (CEO) 的 年 薪 及 奖金 的 数据 。 b. 构建 2005 年 机 场 航班 准时 到 达 率 的 95% 置信 

在 一 个 初始 样本 (单位 : 千 美元 ) 中 ， 标 准 差 为 区 间 。 

675 美元 。 如 果 我 们 想 要 对 年 薪 和 奖金 的 总 体 均值 。 58. 一 家 著名 的 银行 信用 卡 公司 想 要 估计 : 在 月 未 有 

进行 估计 ， 设 定 边际 误差 为 100 000 美元 ， 那 么 应 余额 并 引起 利息 襄 用 的 信用卡 持 卡 人 所 占 比 率 。 

由 多 少 名 CEO 组 成 样本 ? (注意 : 由 于 数据 单位 是 假定 希望 达到 的 边际 误差 为 0.03， 取 置信 水 平 

千 美元 ， 所 以 边际 误差 已 = 100)。 取 置信 水 平 为 98% 。 

为 95% 。 a 如 果 预 期 持 卡 人 中 大 约 有 70% 在 月 未 有 余额 ， 

54.《 今 日 美国 )/CNN/Gallup 对 369 名 在 职 父母 进行 的 则 应 该 抽取 多 大 容量 的 样本 ? 

一 项 调查 显示 ， 他 们 当中 有 200 人 承认 由 于 工作 的 b. 如 果 不 能 指定 总 体 比率 的 计划 值 ， 则 应 该 选取 

原因 而 与 子女 相处 时 间 太 少 。 多 大 容量 的 样本 ? 

a 对 于 由 在 职 父母 组 成 的 总 体 ， 求 由 于 工作 的 原 。 60. 航空 公司 时 刻 表 和 价格 是 商务 旅行 者 选择 航班 时 
因而 与 子女 相处 时 间 太 少 的 父母 所 占 比率 的 点 要 考虑 的 重要 因素 ， 但 是 《今日 美国 》 的 调查 发 
估计 。 现 ， 商 务 旅行 者 将 航空 公司 的 经 常 性 旅客 优惠 政策 

b.， 当 置信 水 平 为 95% 时， 边际 误差 为 多 少 ? 列 为 最 重要 的 因素 。 在 一 个 由 n=1993 名 商务 旅 

c 对 于 由 在 职 父母 组 成 的 总 体 ， 求 由 于 工作 的 原 行者 组 成 的 样本 中 ;有 618 人 将 航空 公司 的 经 常 性 
因而 与 子女 相处 时 间 大 少 的 父母 所 占 比率 的 旅客 优惠 政策 列 为 最 重要 的 因素 。 

95% 置信 区 间 。 a 求 商务 旅行 者 总 体 中 ， 在 选择 航班 时 将 航空 公 
56. 在 2005 年 爹 美 最 为 繁忙 的 机 场 当中 ， 六 六 那 提 北 司 的 经 常 性 旅客 优惠 政策 列 为 最 重要 的 因素 的 
肯塔基 国际 机 场 的 准时 到 达 率 位 居 全 美 第 二 (The 人 所 占 比率 的 点 估计。 

Cincinnati Enquirer，2006 年 2 月 3 日 )。 假 设 由 550 b. 求 总 体 比率 的 95% 置信 区 间 信 计 。 

个 航班 组 成 一 个 样本 ， 其 中 有 455 个 航班 准时 c 当 置 信永 平 为 95% ， 和 边际 误差 为 0.01 时 ， 应 先 

到 达 。 取 多 大 的 样本 容量 ? 你 认为 《今日 美国 》 的 调 

a 试 求 机 场 准时 到 达 率 的 点 估计 。 查 能 达到 这 种 精度 吗 ? 为 什么 ? 





YOUNG PROFESSIONAE EAIS 


Young Professional 杂志 面向 的 读者 是 刚 毕 业 的 大 学 生 ， 这 些 大 学 毕业 生 正 处 在 他 们 职业 生涯 的 头 10 年 。 在 过 
去 两 年 中 ， 杂 志 的 发 行 相当 成 功 。 目 前 出 版 商 感 兴趣 的 问题 是 如 何 扩 大 杂志 的 广告 客户 基础 。 潜 在 的 广告 客户 不 
断 地 询问 有 关 订 阅 Young Professional 杂志 的 订阅 人 特征 和 订阅 人 兴趣 方面 的 问题 。 为 了 收集 这 方面 的 信息 ， 杂 志 
进行 了 一 次 调查 以 便 获 取 订 阅 人 的 概况 资料 。 调 查 结果 将 用 于 帮助 杂志 选择 感 兴趣 的 文章 并 向 做 广告 的 人 提供 订 
阅 人 的 概况 。 你 身 为 杂志 的 一 名 新 雇员 ， 要 求 帮 助 分 析 调 查 结果 。 

如 下 是 部 分 调查 问题 : 
. 您 的 年 龄 ? 
. 您 是 : 男性 女性 ao 
. 未 来 两 年 您 是 否 有 购买 房产 的 计划 ? 是 否 6 
. 除去 家 庭 投资 之 外 ， 您 或 者 您 家 庭 的 成 员 进 行 金融 投资 的 总 金额 大 约 是 多 少 ? 
. 去 年 您 共 进行 了 多 少 次 的 股票 /债券 /互助 基金 交易 ? 
. 您 家 中 有 互联 网 宽带 接 入 吗 ? 是 在 o 
. 您 去 年 的 家 庭 总 收入 是 多 少 ? 

8. 您 有 子女 吗 ? 是 否 6 

这 些 问题 的 回 管 存放 在 光盘 名 为 Professional 的 文件 中 。 表 8-6 列 示 的 是 文件 的 一 部 分 一 一 包括 调查 中 前 5 个 
受 访 者 的 回答 。 

















下 OO Ww 全 天 
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表 8-6 ”YOUNG PROFESSIONAL 杂志 的 部 分 调查 结果 


年 龄 性 别 购买 房产 投资 额 (美元 ) 交易 次 数 宽带 接 入 家 庭 收 入 (美元 ) 子女 
38 女 否 12200 4 是 75 200 有 
30 男 否 12 400 4 是 70 300 有 
41 女 否 26 800 5 是 48 200 无 
28 女 是 19 600 6 否 95 300 无 
31 女 是 15 100 5 否 73.300 有 
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准备 一 份 管理 报告 对 调查 结果 进行 汇总 。 除 了 统计 汇总 之 外 ， 讨 论 杂 志 应 该 如 和 何 利用 这 些 结果 来 吸引 需要 有 登 
广告 的 人 。 你 还 可 以 建议 刊物 的 编辑 如 何 利用 这 些 调查 结果 来 判断 读者 对 哪些 话题 更 感 兴趣 。 你 的 报告 应 该 陈述 
如 下 问题 ， 但 又 不 必 仅 局 限于 这 些 领域 。 

1. 利用 恰当 的 描述 统计 量 对 数据 进行 汇总 。 

2. 求 订 阅 人 年 龄 均值 和 订阅 人 家 庭 收入 均值 的 置信 区 间 ， 取 置信 度 为 95% 。 

3. 求 订 阅 人 家 中 有 宽带 接 入 的 比率 的 95 狗 置信 区 间 。 求 有 子女 的 订阅 人 所 点 比率 的 95% 置信 区 间 。 

4. 对 在 线 代 理 商 而 言 ，Young Professional 杂志 可 能 是 一 个 好 的 广告 途径 吗 ? 根据 统计 数据 判断 你 的 结论 。 

5. 对 销售 幼儿 教育 软件 和 计算 机 游戏 的 企业 来 说 ， 该 杂志 是 刊登 广告 的 好 地 方 吗 ? 

6. 谈 谈 你 认为 Young Professional 杂志 的 读者 会 对 哪些 类 型 的 文章 感 兴趣 。 





例 8-2 Gulf Real Estate Propemies 会 避 | 山本 


Gulf Real Estate Properties 有 限 责任 公司 是 佛罗里达 西南 部 的 一 家 房地产 公司 。 企 业 在 广告 中 称 自己 是 “地 产 
专家 ”。 公 司 对 销售 进行 监督 ， 搜 集 有 关 房 屋 地 点 、 定 价 、 售 价 和 每 套 售 出 中 花费 天 数 等 信息 。 如 果 房 屋 位 于 显 
西 哥 湾 ， 则 称 之 为 看 得 见 海 湾 的 房屋 ; 如 果 房 屋 位 于 墅 西 哥 湾 附近 的 其 他 海湾 或 者 高 尔 夫 球场 ， 则 称 之 为 看 不 见 
海湾 的 房屋 。 福 罗 里 达州 那不勒斯 的 Multiple Listing Service 给 出 了 最 近 售 出 的 40 套 看 得 见 海湾 的 房屋 和 '18 套 看 
不 见 海湾 的 房屋 的 样本 数据 ， 如 表 8-7 所 示 ， 价 格 以 千 美元 计 。 
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1. 对 40 套 看 得 见 海 湾 的 房屋 。 用 适当 的 描述 性 统计 量 对 三 个 变量 中 的 每 个 变量 进行 汇总 。 

2. 对 18 套 看 不 见 海湾 的 房屋 ， 用 适当 的 描述 性 统计 量 对 三 个 变量 中 的 每 个 变量 进行 汇总 。 

3. 比较 你 的 汇总 结果 ， 讨 论 有 有 动 于 房地产 代理 商 了 解 地 产 市 场 的 各 种 统计 结果 。 

4. 对 看 得 见 海湾 的 房屋 ， 求 售 价 的 总 体 均值 以 及 售 出 中 花费 天 数 的 总 体 均 信和 的 95% 置信 区 间 s 解释 你 的 
结果 。 

5. 对 看 不 见 海 湾 的 房屋 ， 求 售 价 的 总 体 均 值 以 及 售 出 中 花费 天 数 的 总 体 均 值 的 95% 置信 区 间 。 解 释 你 的 
结果 。 

6. 假定 分 公司 的 经 理 要 求 在 40000 美元 的 边际 误差 下 对 看 得 见 海湾 的 房屋 售 价 的 均值 进行 估计 ; 在 15 000 美 
元 的 边际 误差 下 对 看 不 见 海湾 的 房屋 售 价 的 均值 进行 估计 。 取 置信 度 为 95% ， 则 应 选取 多 大 的 样本 容量 ? 

7. Gulf Real Estate Properties 公司 刚刚 签订 了 两 份 新 的 订房 合同 : 一 套 定 价 589 000 美元 的 看 得 见 海湾 的 房屋 ， 
一 套 定价 285 000 美元 的 看 不 见 海湾 的 房屋 。 请 估计 这 两 套房 子 最 终 的 售 价 以 及 需 花 费 多 少 天 才能 售 出 ? 
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表 8-7 Gulf Real Estate Properties 公司 的 销售 数据 


看 得 见 海湾 的 房屋 看 不 见 海湾 的 房屋 

定价 售 价 销售 时 间 定价 售 价 销售 时 间 
495.0 475. 0 130 S17 0 ZI 182 
379.0 350. 0 71 148. 0 jr 338 
529.0 519. 0 85 186,5 179.0 122 
52 534.5 95 239,0 230.0 150 
334.9 334. 9 119 279. 0 267. 5 169 
550.0 505.0 92 215.0 214.0 58 
169.9 165. 0 197 279. 0 259.0 110 
210.0 210.0 56 179.0 176.5 130 
975.0 945. 0 73 149.9 144.9 149 
314.0 314.0 126 235. 0 230.0 114 
31S80 305.0 88 199. 8 192. 0 120 
885,0 800.0 282 210. 0 195, 0 601 
975.0 975.0 100 226.0 212.0 146 
469.0 445.0 56 149.9 146.5 137 
329. 0 305.0 49 160. 0 160. 0 281 
365.0 330.0 48 322.0 292.5 63 
332,0 B12; 0 88 187.5 179.0 48 
$520.0 495.0 161 247.0 227. .0 $52 
425.0 405.0 149 

675.0 669.0 142 

409.0 400.0 28 

649.0 649.0 29 

319.0 305. 0 140 

425.0 410.0 85 

359.0 340.0 107 

469.0 449.0 72 

895. 0 875. 0 129 

439:0 430, 0 160 

435. 0 400.0 206 

235. 0 227.,0 91 

638.0 618.0 100 

629.0 600.0 97 

329.0 309.0 114 

595.0 555.0 45 

339. 0 315.0 150 

215.0 200.0 48 

395.0 375.0 135 

449.0 425.0 53 

499. 0 465.0 86 

439.0 428.5 158 





Metropolitan Researcl h 有 限 公 四 


Metropolitan Research 有 限 公司 是 一 一 家 消费 首 研究 组 织 ， 它 设计 调查 用 于 对 消费 首 所 使用 的 大 量 产品 和 服务 进 
行 评估 。 在 某 一 项 特别 的 研究 中 ，Metropolitan 调查 消费 者 对 底特律 地 区 某 个 主要 制造 商 所 生产 的 汽车 性 能 的 满意 
程度 。 就 该 制造 商 生 产 的 一 款 正 常 尺寸 的 小 汽车 向 用 户 的 问卷 调查 显示 ， 有 许多 人 抱 恕 车 辆 初期 传动 系统 不 佳 。 
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为 了 更 好 地 了 解 传动 系统 的 问题 ，Metropolitan 以 底特律 地 区 一 个 修理 企业 提供 的 实际 传动 系统 维修 记录 为 样本 进 
行 研 究 。 以 下 为 50 辆 汽车 的 传动 系统 出 现 故 障 时 所 行驶 的 实际 里 程 的 数据 。 


85 092 32 609 59 465 77437 32 534 64 090 32.464 59 902 
39 323 89 641 94 219 116 803 92 857 63 436 65 605 ”85 861 
64 342 61 978 67 998 59 817 101 769 95 774 121 352 69 568 
74 276 66 998 40 001 72 .069 25 066 77098 69 922 35 662 
74 425 67 202 118 444 53 500 79 294 64 544 86 813 116 269 
37 831 89 341 73 341 85 288 138 114 53 402 85 586 82 256 
77 539 88 798 
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1. 利用 适当 的 描述 性 统计 量 对 传动 系统 失灵 的 数据 进行 汇总 。 

2. 对 曾经 出 现 过 传动 系统 失灵 的 汽车 总 体 ， 求 出 现 传 动 系统 问题 时 行驶 里 程 均值 的 95% 置 信 区 间 。 并 对 该 
区 间 估 计 作 出 管理 上 的 解释 。 

3. 对 于 一 些 汽车 用 户 曾 发 生 过 的 初期 传动 系统 失灵 ， 你 的 统计 结果 说 明了 什么 ? 

4. 如 果 想 要 在 5000 英里 的 边际 误差 下 ; 估计 出 现 传 动 系统 失灵 时 所 行驶 里 程 的 均值 ， 则 研究 者 应 选取 多 大 
的 样本 容量 ? 取 置 信和 度 为 95%。 

5. 为 了 更 全 面 地 对 该 传动 系统 失灵 作出 评价 ， 你 还 需要 收集 一 些 什么 信息 ? 


















实践 中 的 统计 : John Morrell 有 限 公司 
原 假设 和 备 择 假设 的 建立 

第 一 类 错误 和 第 二 类 错误 

总 体 均值 的 检验 ; og 已 知情 形 
总 体 均值 的 检验 ; or 未知 情形 
假设 检验 与 决策 

计算 第 二 类 错误 的 概率 

对 总 体 均值 进行 假设 检验 时 样本 容量 的 确定 
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实践 中 的 统计 < 


john Morrell 有 限 公 司 


俄亥俄 州 


John Morrell 公司 于 1827 年 创建 于 英国 ， 是 美国 历 
史上 最 悠久 的 连续 经 营 的 肉 类 制造 商 。 它 是 一 家 全 资 
独立 管理 的 子 公司 隶属 于 弗吉尼亚 州 的 Smithfield 食品 
公司 。John Morrell 公司 为 顾客 提供 一 系列 经 过 加 工 的 
肉 制品 和 新 鲜 的 猪肉 产品 ， 其 产品 包括 以 下 13 个 地 区 
品牌 ， John Morrell、E-Z-Cut、Tobin’ s First Prize、Din- 
ner Bell、Hunter、Kretschmar、Rath、Rodeo、Shenson、 
Farmers Hichory Brand 、Iowa Quality 和 Peyton”s。 每 种 
地 区 品牌 都 在 消费 者 中 拥有 很 高 的 品牌 认 知 度 和 中 
诚 度 。 

John Morrell 公司 的 市 场 研 究 部 门 负责 管理 公司 各 
类 产品 的 大 量 信息 ， 并 将 这 些 产 品 与 间 类 品牌 的 竞争 
产品 进行 对 比 。 最 近 ， 该 部 门 对 公司 生产 的 炖 牛肉 与 
其 他 两 家 主要 竟 争 对 手 的 类 似 牛 肉 制 品 进 行 了 比较 。 
在 这 三 种 产品 的 对 比 检验 中 ， 样 本 中 的 消费 者 根据 口 
感 、 外 观 、 香 味 和 整体 偏好 ， 对 产品 进行 评价 。 

公司 关注 的 一 个 问题 是 ， 消 费 者 总 体 中 是 否 有 超 
过 50% 的 人 偏爱 John Morrell 公司 生产 的 炖 牛肉 食品 。 
令 卫 表示 偏爱 John Morrell 产品 的 总 体 比 率 ， 研究 中 面 
临 的 假设 检验 是 : 


， 闻 辛 那 提 市 


Ho:p<0.50 H,:p > 0.50 

原 假设 HH 表示 ， 偏 爱 Morrell 产品 的 总 体 比率 小 于 
或 等 于 50% 。 如 果 样 本 数据 支持 拒绝 Ho ， 从 而 接受 各 
择 假 设 HH,， 则 John Morrell 会 得 出 研究 结论 : 通过 三 种 
产品 的 比较 ,消费 者 总 体 中 超过 50% 以 上 的 人 偏爱 
John Morrell 公司 的 产品 。 

在 一 项 独立 的 口感 检验 研究 中 ， 来 自 辛 辛 那 提 、 
密尔沃基 和 和 洛 柳 矶 的 224 名 消费 者 组 成 一 个 样本 ， 其 
中 有 150 人 选择 John Morrell 公司 生产 的 炖 牛肉 为 自己 
最 喜爱 的 食品 。 利 用 统计 假设 检验 方法 ， 原 假设 了 ,被 
拒绝 。 研 究 提供 统计 证 据 支 持 吾 .， 得 出 的 结论 是 : 消 
费 者 总 体 中 超过 50% 以 上 的 人 偏爱 John Morrell 公司 的 
产品 。 

总 体 比率 的 点 估计 =150/224 =0.67。 因 此 ， 样 
本 数据 支持 食品 杂志 的 广告 ， 认 为 在 三 种 产品 的 口味 
比较 中 ，John Morrell 公司 生产 的 炖 牛肉 “在 竞争 中 受 
欢迎 程度 为 2: 1”。 

本 章 我 们 将 介绍 如 何 提出 假设 ， 如 何 像 John Mor- 
rell 公司 那样 进行 假设 检验 。 通 过 分 析 样 本 数据 ， 我 们 
可 以 确定 是 否 碟 绝 一 个 假设 。 


在 第 7 章 和 第 8 章 中 ， 我 们 说 明了 如 何 利用 样本 对 总 体 参数 进行 点 估计 和 区 间 估 计 。 本 章 ， 我 们 将 继续 讨论 
在 统计 推断 中 如 何 利用 假设 检验 来 确定 是 否 应 拒绝 关于 总 体 参数 值 的 说 法 。 

在 假设 检验 中 ,我 们 首先 对 总 体 参 数 做 一 个 尝试 性 的 假设 。 该 尝试 性 的 假设 称 为 原 假设 (null hypothesis ) ， 
记 作 Hu。 然 后， 定义 另 一 个 与 原 假 设 的 内 容 完全 对 立 的 假设 ， 记 作 也 ， 称 之 为 备 择 假设 (alternative hypothesis ) 。 
假设 检验 的 过 程 就 是 根据 样本 数据 对 这 两 个 对 立 的 假设 Hu 和 也 进行 检验 。 

本 章 说 明 如 何 对 总 体 均 值 和 总 体 比 率 进行 假设 检验 。 我 们 首先 通过 举例 说 明 建立 原 假设 和 备 择 假 设 的 方法 。 


9.1 原 假 设 和 备 择 假设 的 建立 


原 假设 和 备 择 假设 可 能 并 不 总 是 显而易见 的 ， 必 须 谨慎 地 构造 适当 的 假设 ， 从 而 使 得 假设 检验 的 结论 能 够 提 
供 研 究 者 或 者 决策 者 所 需要 的 信息 > 。 在 确定 如 何 表述 假设 时 ， 假 设 检验 具体 应 用 于 何 种 情况 非常 重要 。 在 所 有 
假设 检验 的 应 用 中 ， 都 包括 搜集 样本 并 利用 样本 结果 提供 下 结论 的 依据 。 在 确定 原 假设 和 备 择 假设 时 ， 关 键 的 问 
题 是 考虑 搜集 样本 的 目的 是 什么 ， 我 们 想 要 作出 怎样 的 结论 。 


日 ”作者 感谢 John Morrel 公司 市 场 营 销 部 副 总 经 理 Marty Buter， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
@ ”正确 表达 假设 是 需要 通过 实践 来 学 习 的 。 可 以 预见 ， 在 选择 合适 的 假设 Ho 和 卫 。 时 ， 最 初 可 能 会 有 一 些 困 惑 。 本 节 的 例子 试图 对 此 
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在 本 章 的 开篇 ;我 们 说 原 假设 Hi 是 关于 总 体 参 数 ( 比 如， 总 体 均值 或 者 总 体 比率 ) 的 一 个 尝试 性 的 假设 。 
备 择 假设 H, 是 与 原 假设 对 立 的 一 种 说 法 。 在 有 些 情形 下 ， 更 易于 首先 确定 备 择 假 设 ， 然 后 再 确 定 原 假设 。 而 在 为 
一 些 情 形 下 ， 则 更 易于 首先 确定 原 假设 ， 然 后 再 确定 备 择 假设 。 在 下 面 的 例子 中 ， 我 们 将 说 明 这 些 情况 。 


9. 1. 1 将 研究 中 的 假设 作为 备 择 假设 


在 许多 假设 检验 的 应 用 中 ， 都 是 试图 搜集 证 据 来 支持 研究 中 的 假设 。 在 这 些 情 形 下 ， 通常 最 好 从 备 择 假设 开 
始 ， 然 后 得 到 研究 者 希望 支持 的 结论 。 考 虑 某 种 汽车 ， 在 城市 行驶 时 目前 达到 的 燃油 效率 为 24 英里 /加 仑 。 某 产 
品 研 究 小 组 专门 设计 了 一 种 新 型 的 燃油 喷射 系统 来 所 高 每 加 仑 燃油 的 效率 。 产 品 研究 小 组 要 对 这 种 新 型 燃油 喷射 
系统 进行 控制 实验 ， 和 寻找 统计 依据 作出 结论 : 新 型 燃油 喷射 系统 的 燃油 效率 超过 了 目前 所 使 用 系统 的 燃油 效率 。 

制造 一 批 这 种 新 型 燃油 喷射 系统 ， 将 它们 安装 在 要 检测 的 汽车 上 ， 并 且 满 足 研究 控制 的 驾驶 条 件 。 计 算 这 些 
汽车 每 加 仑 燃油 行驶 里 程 的 样本 均值 ， 并 据 此 在 假设 检验 中 判断 是 否 可 以 得 出 结论 : 新 型 燃油 喷射 系统 的 平均 效 
率 超 过 了 24 英里 /加 仑 。 令 燃油 效率 的 总 体 均值 为 py， 则 研究 中 的 假设 所 >24 是 备 择 假 设 。 直 于 目前 燃油 喷射 系 
统 的 平均 效率 为 24 英里 /加 仑 ， 所 以 我 们 尝试 性 地 假定 : 新 型 燃油 喷射 系统 并 不 比 目 前 的 系统 好 ， 即 选择 jw 24 
为 原 假设 。 原 假设 和 备 择 假 设 分 别 为 

Hsp < 24 
H:x > 24 

如 果 样 本 支持 得 出 拒绝 Ho 的 绪论 ， 则 可 以 作出 HH, ;p>24 的 推断 。 结 论 从 统计 上 支持 研究 者 ， 认 为 新 型 燃油 
喷射 系统 提高 了 每 加 仑 燃油 的 平均 行驶 里 程 。 因 而 ,可 以 考虑 将 此 种 新 型 燃油 喷射 系统 投入 生产 。 然 而 ， 如 果 抽 
样 结果 得 出 不 能 拒绝 Hu 的 结论 ， 则 研究 者 不 能 断定 新 型 燃油 喷射 系统 是 否 一 定 优 于 目前 的 系统 。 因 此 ， 若 从 省 油 
角度 来 看 ， 没 有 依据 表明 生产 新 型 燃油 路 射 系统 的 汽车 是 合理 的 。 也 许 应 该 进行 更 深入 的 研究 和 检验 。” 

企业 通过 不 断 开 发 比 已 有 产品 和 方法 更 优 的 新 产品 、 新 方法 和 新 系统 等 ， 方 能 成 功 地 保持 竞争 力 。 在 接纳 一 项 新 事 
物 之 前 ， 和 希望 通过 研究 来 判定 是 否 有 统计 依据 支持 我 们 得 出 新 方法 确实 更 好 的 结论 。 在 这 种 情形 下 ， 通 常 将 研究 中 的 假 
设 表 述 为 备 择 假设 。 例 如 ， 认 为 一 种 新 型 教学 方法 优 于 目前 的 方法 ， 则 备 择 假设 为 新 方法 更 好 ， 原 假设 为 新 方法 不 比 老 
方法 好 。 比 如 ， 为 促销 而 开展 一 项 新 的 销售 奖励 促进 计划 ， 则 备 择 假 设 为 新 的 奖励 计划 能 够 促进 销售 ， 原 假设 为 新 的 奖 
励 计划 不 能 促进 销售 。 再 比如 ， 为 了 比 已 有 药物 更 好 地 降低 血压 ， 研 制 出 了 一 种 新 型 药物 ， 则 备 择 假 设 为 新 型 降 压 药 优 
于 已 有 药物 ， 原 假设 为 新 药 并 不 比 已 有 药物 存在 更 好 的 降 压 效果 。 在 这 些 情形 下 ， 若 拒绝 原 假设 三 则 为 研究 中 的 假设 提 
供 了 统计 上 的 支持 。 在 本 章 以 及 本 书 的 其 余部 分 ， 我 们 还 将 看 到 许多 研究 中 假设 检验 的 例子 。 


9. 1.2 将 受到 挑战 的 假说 作为 原 假 设 


当然 ， 不 是 所 有 的 假设 检验 都 是 涉及 研究 的 假设 。 在 下 面 的 讨论 中 ,我 们 考虑 假设 检验 的 为 一 个 应 用 。 我 们 
从 一 种 信念 或 假定 开始 ， 即 从 有 关 总 体 参数 值 的 说 法 是 真实 的 开始 。 然 后 ,我 们 将 利用 假设 检验 对 这 种 假定 提出 
怀疑 ,并 确定 是 否 有 统计 证 据 支 持 得 出 假定 不 正确 的 结论 。 在 这 种 情形 下 ， 首 先 确 立 原 假设 是 有 益 的 。 原 假设 Hi 
表述 了 对 总 体 参数 值 的 信念 或 者 假定 。 在 备 择 假设 昌 , 中 ， 认 为 这 种 信念 或 者 假说 不 正确 。 
作为 一 个 例子 ， 考 虑 某 种 软饮料 产品 的 制造 商 所 面 对 的 情况 。 瓶 装 软饮料 的 标签 上 注 明 ， 每 壮 为 67.6 准 司 。 
我 们 认为 瓶装 软饮料 的 标签 是 正确 的 ， 即 包装 重量 的 总 体 均 值 至 少 为 67. 6 体 司 。 除 非 有 其 他 理由 ， 我 们 通常 假设 
标签 上 的 标注 是 正确 的 ， 但 可 以 对 制造 商 的 说 法 提出 质疑 。 因 此 ， 在 关于 每 瓶 饮 料 重量 的 总 体 均值 的 假设 检验 
中 , 我 们 会 从 假设 标签 是 正确 的 开始 ， 设 定 原 假 设 为 w>=>67.6“。 挑 战 这 种 假说 ， 意 味 着 标签 是 不 正确 的 ， 每 瓶 
分 量 不 足 。 将 这 种 质疑 表述 为 备 择 假设 人 <67.6。 于 是 ， 原 假设 和 备 择 假 设 分 别 为 
Ho :pn 07.6 
H :wu < 67.6 


提 ”如 果 样 本 数据 提供 了 足够 的 证 据 表明 可 以 拒绝 原 假设 ,那么 可 以 得 出 结论 认为 所 研究 的 很 设 为 真 。 
名 ”制造 商 的 产品 信息 通常 被 假设 为 真 ， 并 将 此 设 为 原 假设 。 如 果 拒 绝 原 假 设 ， 则 得 出 该 信息 不 正确 的 结论 。 
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政府 监督 部 门 肩负 着 保证 商标 标注 有 效 的 义务 ， 他 们 选取 一 些 瓶 装 软 饮料 组 成 样本 ,计算 铅 装 重量 的 样本 均 
值 ， 并 据 此 进行 随后 的 假设 检验 。 如 果 抽 样 结果 使 得 我 们 得 到 拒绝 H, 的 结论 ， 则 推断 H, :py <67.6 为 真 。 根 据 这 
一 统计 证 据 ， 监 督 部 门 可 以 得 出 结论 : 标签 不 正确 ， 产 品 分量 不 足 。 考虑 采取 适当 的 强制 措施 促使 制造 商 生 产 的 
产品 达到 标签 上 的 标准 。 但 是 ， 如 果 抽 样 结果 表明 不 能 拒绝 Hu ， 则 不 能 拒绝 “制造 商 的 标签 是 正确 的 ”这 一 假 
设 。 在 这 种 结论 之 下 ， 监 督 部 门 不 需要 采取 任何 行动 。 

下 面 我 们 从 制造 商 的 角度 重新 考虑 瓶装 软饮料 的 包装 问题 。 设 计 的 软饮料 的 装 瓶 标 准 为 67.6 从 司 : 制造 商 
不 想 让 产品 分 量 不 足 ， 因 为 这 会 导致 来 目 消费 者 或 监管 部 门 的 投诉 。 然 而 ， 制 造 商 也 不 想 让 产品 超 量 ， 因 为 灌 人 
过 量 的 软饮料 会 增加 不 必要 的 成 本 。 企 业 的 目标 是 ， 调 整 装 瓶 操作 使 得 每 瓶 饮料 容量 的 总 体 均 值 恰好 为 标签 标注 
的 67.6 长 司 。 

虽然 企业 的 目标 如 此 ,但 是 生产 操作 中 时 常会 出 现 失控 。 如 果 发 生 失 控 ， 那么 在 我 们 的 例子 中 ， 将 会 发 生 软 饮 
料 灌 装 不 足 或 者 灌 装 过 量 。 无 论 发 生 哪 一 种 情形 ， 企 业 都 需要 对 此 了 解 并 加 以 纠正 ， 重 新 将 瓶装 操作 调整 到 设计 的 
67.6 答 司 。 在 应 用 假设 检验 时 ， 我 们 依然 会 从 假设 生产 线 运行 正常 开始 ， 设 定 原 假设 为 凡 =67.6 稚 司 ， 挑 战 该 假说 
的 备 择 假设 为 风 夫 67.6， 即 会 发 生 软 饮料 灌 装 不 足 或 者 灌 装 过 量 。 在 厂商 的 假设 检验 中 ， 原 假设 和 备 择 假设 分 别 为 : 

Hu: = 07.6 
H, :pg A 67.6 

假如 软饮料 制造 商 利用 质量 控制 方法 定期 从 灌 共 生产线 上 抽取 一 部 分 瓶装 软饮料 组 成 样本 ， 计 算 每 瓶 灌 人 重 
量 的 样本 均值 。 如 果 样 本 结果 使 得 我 们 得 到 拒绝 H, 的 结论 ， 则 推断 晶 ,:p 半 67.6 为 真 。 我 们 的 结论 是 : 灌 装 操作 
运行 不 正常 ， 需 要 对 生产 流程 进行 调整 ， 以 恢复 到 每 瓶 的 总 体 均 值 为 67. 6 得 司 的 状态 。 但 是 ， 如 果 样 本 结果 表明 
不 能 拒绝 Ho ， 则 不 能 拒绝 “制造 商 的 装 瓶 操作 运行 正常 ”这 一 假设 。 这 时 ， 不 需要 采取 任何 行动 ,生产 操 作 继 
续 进 行 。 

在 关于 软饮料 制造 的 例子 中 ， 上 述 两 种 假设 检验 的 形式 说 明 : 研究 者 或 者 决策 者 的 观点 不 同 ， 原 假设 和 备 择 
假设 也 随 之 不 同 。 在 正确 地 建立 假设 时 ， 重要 的 是 ， 要 了 解 假 设 检验 具体 应 用 于 何 种 情况 ， 从 而 使 得 构建 的 假设 
能 够 提供 研究 者 或 者 决策 者 所 需要 的 信息 。 


9. 1.3 原 假设 和 备 择 假设 形式 的 小 结 


本 章 中 的 假设 检验 涉及 两 个 总 体 参 数 : 总 体 均值 和 总 体 比 率 。 根 据 不 同情 况 ， 总 体 参 数 的 假设 检验 采取 以 下 
三 种 形式 之 一 : 其 中 两 个 在 原 假 设 用 不 等 号 ( 宕 或 < ); 第 三 个 在 原 假设 用 等 号 。 对 于 总 体 均 值 的 假设 检验 ， 我 
们 令 jw 代表 假定 值 并 且 必 须 采 用 以 下 三 种 形式 之 一 进行 假设 检验 。 
Hp 二 po 印 汉 和 po Hp=p 
Hp < 有 > Hw 
前 面 两 种 形式 称 为 单 侧 检验 ; 第 三 种 形式 称 为 双 侧 检验 。 
许多 情况 下 ， 关 于 H, 和 H, 的 选择 并 非 显 而 易 见 ， 必 须 通 过 判断 来 选择 。 当 然 ， 正 如 前 面 的 形式 所 显示 的 那 
样 ， 表达 式 中 的 等 号 部 分 〈 不 论 是 = ， 拓 还 是 =) 总 是 出 现在 原 假设 中 。 在 选择 H, 和 ,的 适当 形式 时 ， 记 住 将 
检验 试图 建立 的 结果 设 为 备 择 假 设 ， 因此， 询问 使 用 者 是 否 正在 寻找 支持 <p， 凡 >jpw 或 以 关 po 的 证 据 ， 有 助 于 
我 们 确定 H,。 下 面 设计 的 习题 ， 让 我 们 练习 如 何在 总 体 均值 的 假设 检验 中 选取 假设 的 适当 形式 。 
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女 2. 一 名 汽车 销售 经 理 正 在 考虑 采取 一 种 新 的 奖励 计划 售 量 。 为 了 收集 有 关 新 计划 的 数据 ， 允 许 被 选 入 样 
以 提高 销售 量 。 目 前 ， 销 售 量 的 均值 为 每 月 14 辆 汽 本 的 销售 人 员 在 为 期 一 个 月 的 时 间 内 在 销售 中 采用 
车 。 经 理 通过 调研 想 知 道 新 的 奖励 计划 能 否 增 加 销 新 的 奖励 计划 。 





日 ”这 里 给 出 了 假设 Ho 和 HH, 的 三 种 可 能 的 形式 ， 注 意 等 号 总 是 出 现在 原 假设 Ho 中 。 
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a 在 这 种 情况 下 ， 建 立 最 为 合适 的 原 假 设 和 备 择 员 确 信 ， 推 荐 的 制造 方法 能 降低 成 本 。 目 前 生产 方 


假设 。 法 的 平均 成 本 是 每 小 时 220 美元 。 一 项 调研 工作 是 
b. 若 不 能 拒绝 Hu， 请 对 所 做 的 结论 进行 评述 。 在 样本 生产 期 间 ， 测 量 新 方法 的 成 本 。 
c. 车 能 拒绝 Ho， 请 对 所 做 的 结论 进行 评述 。 a. 在 该 项 研究 中 ， 建立 恰 当 的 原 假设 和 备 择 假设 。 


4. 由 于 改变 生产 方法 所 需 的 时 间 和 成 本 都 很 大 ， 所 以 b. 当 了 不 能 被 拒绝 时 ， 对 所 做 的 结论 进行 评述 。 
在 一 种 新 方法 实施 之 前 ， 制 造 负 责 人 必须 使 管理 人 c. 当 Ho 能 被 拒绝 时 ， 对 所 做 的 结论 进行 评述 。 


9.2 第 一 类 错误 和 第 二 类 错误 


原 假设 和 备 择 假设 是 关于 总 体 的 两 种 不 同 的 观点 。 要 么 原 假 设 Ho 为 真 ， 要 么 备 择 假设 H, 为 真 ， 但 是 两 者 不 
可 能 同时 为 真 。 理 想 的 假设 检验 方法 应 该 是 : 当 H, 为 真 的 时 候 接 受 H,。; 当 殖 ,为 真 的 时 候 拒 绝 H,。 但是， 由 于 假 
设 检 验 是 基于 样本 信息 得 到 的 ， 不 可 能 作出 的 结论 总 是 正确 的 ， 所 以 我 们 必须 考虑 发 生 误差 的 可 能 性 。 表 9-1 列 
示 了 假设 检验 中 可 能 发 生 的 两 类 错误 。 


表 9-1 的 第 一 行 说 明 ， 当 作出 接受 Ho 的 结论 时 可 能 发 生 的 情 表 9-1 假设 检验 中 的 正确 与 错误 结论 
况 。 这 时 ， 如 果 Ho 为 真 ， 则 该 结论 正确 ， 如 果 ,为 真 , 那么 发 ” 疝 体 情况 
生 了 第 二 类 错误 (Type I emor) ， 即 当 了 为 假 时 我 们 却 接受 了 Ho 是 真 的 Hs 是 真 的 
H,。。 表 9-1 的 第 二 行 说 明 ， 当 作出 拒绝 H, 结 论 时 可 能 发 生 的 情 i 接受 Ho ”结论 正确 第 二 类 错误 
况 。 这 时 ， 如 果 Hu 为 真 ， 那 么 发 生 了 第 一 类 错误 (Type I error)， 拒绝 Ho 第 一 类 错误 结论 正确 
即 当 HH 为 真 时 我 们 却 拒 绝 了 H,。 显 然 ， 如 果 HH, 为 真 ， 则 拒绝 Hu 
是 正确 的 。 


回忆 在 第 9. 1 节 讨 论 的 假设 检验 的 例子 。 一 个 汽车 生产 研究 小 组 开发 了 一 种 新 型 燃油 喷射 系统 ， 该 系统 能 提 

高 汽车 燃油 的 效率 。 目 前 所 用 系统 下 ， 汽 车 燃油 的 效率 为 24 英里 /加 仑 ， 建 立 如 下 形式 的 假设 检验 

H,:r < 24 

H,:w > 24 
备 择 假设 H,:p >24 表明 ， 研 究 者 正 致力 于 寻找 样本 证 据 支持 结论 : 新 型 燃油 喷射 系统 能 使 汽车 燃油 效率 的 总 体 
均值 超过 24 英里 /加 仓 。 

在 这 个 应 用 中 ， 第 一 类 错误 是 指 耳 为 真 时 却 拒绝 了 Ho ， 即 当 研究 者 认为 新 型 燃油 喷射 系统 提高 了 燃油 效率 
(>24) ， 而 实际 情况 却 是 新 系统 并 不 比 目 前 所 使 用 的 系统 好 。 反 之 ， 第 二 类 错误 是 指 孔 , 为 假 时 却 接受 了 Hu， 即 
当 研 究 者 在 认为 新 型 燃油 喷射 系统 的 效率 并 不 比 目 前 的 好 (<24) ， 而 实际 情况 却 是 新 系统 提高 了 每 加 仑 燃料 汽 
车 的 行驶 里 程 。 

对 于 每 加 仑 燃料 行驶 里 程 的 假设 检验 ， 原 假设 是 Ho :p24。 假 定 ， 原 假设 为 真是 以 等 式 形式 出 现 ， 即 py = 24。 
当 作为 一 个 等 式 的 原 假设 为 真 时 ， 犯 第 一 类 错误 的 概率 被 称 为 检验 的 显著 性 水 平 (level of signifeance) 。 于 是 ， 对 
于 每 加 仑 燃料 汽车 行驶 里 程 的 假设 检验 而 言 ， 显 著 性 水 平 是 当 j =24 时 拒绝 Ho :p<24 的 概率 。 出 于 这 个 概念 的 
重要 性 ， 下 面 我 们 重新 叙述 显著 性 水 平 的 定义 。 
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用 希腊 字母 a (阿尔 法 ) 表示 显著 性 水 平 ， 一般 取 a 为 0.05 和 0.01。 

在 实践 中 ， 由 进行 假设 检验 的 人 设 定 显 著 性 水 平 。 通 过 选择 a， 控制 了 犯 第 一 类 错误 的 概率 。 如 果 犯 第 一 类 
错误 的 成 本 很 高 ， 则 选择 小 的 a 值 。 如 果 犯 第 一 类 错误 的 成 本 不 高 ， 则 通常 选择 较 天 的 a 值 。 应 用 中 ， 一 般 将 只 
控制 第 一 类 错误 的 假设 检验 称 为 显著 性 检验 。 许 多 假设 检验 的 应 用 都 属于 这 一 种 类 型 。 

在 假设 检验 的 大 多 数 应 用 中 ， 虽 然 对 发 生 第 一 类 错误 的 概率 进行 了 控制 ， 但 通常 并 不 对 发 生 第 二 类 错误 的 概 

率 加 以 控制 。 因 此 ， 如 果 我 们 决定 接受 H,， 我 们 并 不 能 确定 该 决策 有 多 大 的 可 信和 度 。 由 于 显著 性 检验 中 第 二 类 错 


第 9 章 假设 检验 205 


误 的 发 生 具 有 不 确定 性 ， 所 以 通常 统计 学 家 建议 我 们 在 叙述 中 采用 “不 能 拒绝 Hu ”而 不 采用 “接受 Hi， 这 种 说 
法 。 采 用 “不 能 拒绝 H,” 这 种 说 法 意味 着 我 们 对 判断 或 行动 持 保 留意 见 。 实 际 上 ， 不 直接 接受 Hu ， 使 统计 学 家 
避免 了 发 生 第 三 类 错误 的 风险 。 不 论 何 时 ， 只 要 未 对 发 生 第 二 类 错误 的 概率 加 以 确定 或 控制 ， 我们 就 不 能 作出 接 
受 Hu 的 结论 。 这 种 情形 下 ， 只 能 得 出 两 种 可 能 的 结论 : 不 能 拒绝 HH, 或 拒绝 H,。” 

虽然 在 假设 检验 中 通常 没有 控制 第 二 类 错误 , 但 是 第 二 类 错误 确实 是 可 以 控制 的 。 在 第 9.7 和 第 9.8 节 中 ， 
我 们 将 介绍 确定 和 控制 第 二 类 错误 发 生 概率 的 方法 。 如 果 能 够 对 第 二 类 错误 建立 适当 的 控制 ， 那 么 基于 “接受 
Hi ”的 结论 所 采取 的 措施 就 是 恰当 的 。 

注释 和 评论 

美国 George Mason 大 学 的 经 济 学 教授 兼 联合 专栏 作家 沃尔特 ' 威廉 姆 斯 (Walter Williams) 指出 ， 在 决策 中 
第 一 类 错误 或 第 二 类 错误 发 生 的 可 能 性 经 常 存在 《The Cincinnatis Engquirer，2005 年 8 月 4 日 )。 他 认为 ， 美 国 食品 
和 药品 管理 局 (FDA) 在 药品 准 入 程序 中 具有 犯 这 些 错误 的 风险 。 对 某 种 药物 ，FDA 必须 确定 是 否 准 许 其 用 于 诊 
疗 。 第 一 类 错误 意味 着 ，FDA 准许 一 种 并 非 安全 有 效 的 药物 投入 使 用 。 而 第 二 类 错误 意味 着 ，FDA 不 允许 一 种 安 
全 有 效 的 药物 用 于 诊疗 。 无 论 作 出 何 种 决策 ， 发 生 重 大 损失 的 可 能 性 都 是 不 能 忽视 的 。 








练 “ 习 pp ( el -i 
6、 在 容量 为 3 专 脱 的 橙汁 容器 上 ， 标 签 标 明 橙 汁 脂肪 8. 如 果 假 设 检 验 支 持 我 们 作出 新 的 生产 方法 能 够 降低 每 


含量 的 均值 不 超过 1 克 。 对 标签 上 的 说 明 进 行 假设 小 时 操作 成 本 的 结论 ， 则 将 采用 这 种 新 的 生产 方法 。 

检验 ， 回 答 下 列 问题 。 a. 如 果 目 前 生产 方法 的 平均 成 本 为 每 小 时 220 美 

a. 建立 适当 的 原 假 设 和 备 择 假设 。 元 ， 建 立 合适 的 原 假设 和 备 择 假设 。 

b, 这 种 情况 下 ， 第 一 类 错误 是 什么 ? 发 生 这 类 错误 b. 这 种 情况 下 ， 第 一 类 错误 是 什么 ? 发 生 这 类 错误 
的 后 果 是 什么 ? 的 后 果 是 什么 ? 

ce， 这 种 情况 下 ， 第 二 类 错误 是 什么 ? 发 生 这 类 错误 c. 这 种 情况 下 ， 第 二 类 错误 是 什么 ? 发 生 这 类 错误 
的 后 果 是 什么 ? 的 后 有 果 是 什么 ? 


9.3 总 体 均 值 的 检验 : o 已 知情 形 


在 第 8 章 中 ,我 们 曾 说 如 果 在 应 用 中 可 以 根据 历史 数据 或 者 其 他 信息 在 抽样 前 得 到 总 体 标准 差 的 一 个 好 的 估 
计 ， 则 可 看 作 o 是 已 知 的 。 在 这 种 情形 下 ， 出 于 应 用 的 目的 ， 总 体 标准 差 可 以 被 认为 是 已 知 的 。 本 节 我 们 说 明 ， 
在 oa 已 知 的 情形 下 如 何 对 总 体 均 值 进行 假设 检验 。 

在 样本 恰好 选 自 服从 正 态 分 布 的 总 体 时 ， 本 节 所 介绍 的 方法 是 精确 成 立 的 。 当 没有 理由 可 以 假定 总 体 服 从 正 
态 分 布 的 情形 下 ， 只 有 在 样本 容量 足够 大 的 时 候 ， 这 些 方法 才 是 有 效 的 。 在 本 节 末 ， 我 们 将 就 总 体 分 布 和 样本 容 
量 给 出 在 实际 应 用 中 的 一 些 建 议 。 


9. 3.1 单 侧 检验 
总 体 均值 的 单 侧 检 验 (one-tailed test) 有 以 下 两 种 形式 。 
下 侧 检 验 上 侧 检验 
Bo ;pn po Hsp < po 
Hp <po Hp > po 


是 ”如果 样本 数据 与 原 假设 Ho 一 致 ， 则 我 们 得 出 “不 能 拒绝 Ho” 的 结论 。 因 为 接受 Ho 使 我 们 有 发 生 第 二 类 错误 的 风险 ， 所 以 更 倾向 
于 “不 能 拒绝 Ho” 而 不 是 “接受 Ho”。 
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我 们 考虑 一 个 下 侧 检验 的 例子 。 

”美国 联邦 贸易 委员 会 (FTC) 定期 设计 统计 调查 ， 用 以 检验 制造 商 的 产品 说 明 。 例 如 ， 大 号 听 装 Hilltop 咖啡 
的 标签 上 标明 装 有 3 磅 咖啡 。FTC 知道 Hilltop 的 生产 线 不 可 能 精确 地 在 每 多 中 放 和 人 3 磅 咖啡 ， 甚 至 无 法 保证 所 有 
听 装 咖啡 重量 的 总 体 均值 为 3 磅 / 听 。 当 然 ， 只 要 听 装 总 体重 量 的 均值 至 少 为 3 磅 / 听 ， 消 费 者 的 权益 将 得 到 保障 。 
于 是 ，FTC 把 大 号 听 装 咖啡 标签 上 的 信息 理解 为 Hilltop 的 承诺 : 听 装 咖啡 重量 的 总 体 均 值 为 3 磅 / 听 。 我 们 将 说 
明 ，FTC 如 何 通 过 下 侧 检 验 来 验证 Hilltop 的 承诺 。 

第 一 步 是 为 检验 提出 原 假设 和 备 择 假 设 。 如 果 色 内 装 入 咖啡 重量 的 总 体 均 值 至 少 为 3 磅 / 听 ，、 那 么 Hilktop 遵 
守 了 产品 的 承诺 。 这 构成 了 检验 的 原 假设 。 当 然 ， 如 果 镀 内 装 信 哪 啡 重量 的 总 体 均 值 少 于 3 磅 / 听 ， 那 么 Hilltop 
没有 订 守 对 产品 的 承诺 ， 这 构成 检验 的 备 择 假设 。 令 pz 代表 听 装 咖啡 重量 的 总 体 均 值 ， 得 到 如 下 形式 的 原 假设 和 
对 立 假设 : 

卫 , 攻 三 3 Hi 3 
注意 ， 总 体 均值 的 假定 值 uo =3。 

如 果 样 本 数据 表明 ， 不 能 拒绝 Hu， 则 统计 证 据 不 支持 我 们 作出 生产 商 违 背 了 标签 上 承诺 的 结论 ， 从 而 不 必 对 
Hilltop 采取 任何 措施 。 但 是 ， 如 果 样 本 数据 表明 能 拒绝 Hu ， 则 我 们 的 结论 是 : 备 择 假设 H, ;p<3 为 真 。 这 种 情形 
下 ， 可 以 作出 听 装 咖啡 重量 不 足 的 结论 ， 并 且 有 充足 的 理由 投诉 Hilltop 违背 了 标签 上 的 承诺 。 

假定 选取 36 听 咖 啡 组 成 一 个 随机 样本 ， 并 且 计 算 样本 均值 二 作为 总 体 均 值 45 的 估计 值 。 如 果 样 本 均值 x 小 于 
3 磅 ， 则 样本 结果 对 原 假设 提出 了 质疑 。 我 们 想 知道 的 是 : 当 样 本 均值 x 比 3 磅 少 多 少 的 时 候 ， 我 们 才能 断言 差 
异 明显 并 且 甘 愿 冒 着 犯 第 一 类 错误 的 风险 (错误 地 ) 控告 Hilltop 公司 违背 了 标签 上 的 承诺 。 这 个 问题 中 ， 一 个 关 
键 的 因素 是 决策 者 所 选取 的 显著 性 水 平 。 

正如 上 一 节 所 提 到 的 那样 ， 用 a 表示 显著 性 水 平 ， 它 是 当 作 为 一 个 等 式 的 原 假设 为 真 时 ， 拒 绝 H, 而 发 生 第 一 
类 错误 的 概率 。 决 策 者 必须 事先 指定 一 个 显著 性 水 平 。 如 果 发 生 第 一 类 错误 的 成 本 很 高 ， 则 应 当选 取 较 小 的 值 做 
为 显著 性 水 平 。 如 果 发 生 第 一 类 错误 的 成 本 不 高 ， 则 可 以 适当 选取 较 天 的 值 为 显著 性 水 平 。 在 Hilltop 咖啡 的 研究 
中 ，FTC 检验 程序 的 负责 人 作出 如 下 说 明 :“ 如 果 公 司 达 到 了 其 重量 规格 p=3 的 要 求 ， 则 我 们 不 会 对 lltop 采取 
任何 措施 。 但 是 ， 我 们 会 以 1% 的 可 能 性 犯 这 类 错误 。” 从 该 负责 人 的 说 明 中 可 知 ， 我 们 设 定 该 假设 检验 的 显著 性 
水 平 a=0.01。 于 是 ,我们 必须 设计 一 个 假设 检验 ， 使 得 当 jy =3 时 犯 第 一 类 错误 的 概率 为 0.01 。 

在 Hilltop 咖啡 问题 的 研究 中 ， 通 过 确定 原 假设 、 备 择 假设 和 设 定 显著 性 水 平 ， 我们 已 经 完成 了 进行 每 个 假设 
检验 时 所 需 的 前 两 步 。 现 在 我 们 准备 完成 假设 检验 的 第 三 步 : 收集 样本 数据 和 计算 检验 统计 量 的 值 。 

检验 统计 量 (test statistic) 在 Hilltop 咖啡 问题 的 研究 中 ，FTC 前 期 的 检验 表明 ， 可 以 假定 总 体 标 准 差 已 知 ， 
为 rr =0.18。 另 外 ， 前 期 检验 还 表明 ， 可 以 假定 听 装 邮 罪 重量 的 总 体 服 从 正 态 分 布 。 从 第 7 章 抽样 分 布 的 研究 中 
我 们 知道 ， 如 果 进 行 抽样 的 总 体 服 从 正 态 分 布 ， 则 * 的 抽样 分 布 也 服从 正 态 分 布 。 因 此 , 在 Hilltop 咖啡 的 研究 
中 , x 的 抽样 分 布 服从 正 态 分 布 , 已 知 o =0.18, 样本 容量 n =36。 pS 
图 9-1 给 出 当 作 为 一 个 等 式 的 原 假设 为 真 ( 即 j=jo =3“) 时 x 的 抽样 
分 布 。 注 意 : * 的 标准 误差 ，o; = xc/Vn =0.187V36 =0.03 “。 

由 于 * 的 抽样 分 布 服从 正 态 分 布 ， 则 

% 一 元 -3 
ar: 0.03 
的 抽样 分 布 是 标准 正 态 分 布 。z = -1 表明 x 的 值 位 于 比 均值 的 假定 值 小 
1 个 标准 差 的 位 置 ，z = -2 表明 * 的 值 位 于 比 均值 的 假定 值 小 2 个 标准 ”图 9-1 原 假 设 以 等 式 (=3) 形式 成 立 
差 的 位 置 ，…， 依 次 类 推 。 我 们 可 以 通过 标准 正 态 概率 分 布 表 得 到 对 应 时 , 在 Hilltop 咖啡 问题 的 研究 
于 任何 z 值 的 下 侧 概 率 。 例 如 ，z = -3 的 下 侧面 积 为 0.0013。 从 而 ， 中 ,x 的 抽样 分 布 








-十 一 





日 、 在 构造 假设 检验 的 抽样 分 布 时 ， 假 定 Ho 是 以 等 式 形式 成 立 的 。 
昌 x 的 标准 误差 就 是 x 的 抽样 分 布 的 标准 差 。 
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所 得 值 小 于 均值 3 个 或 3 个 以 上 标准 差 的 概率 为 0. 0013。 因 此 ,x 的 值 比 总 体 均 值 的 假定 值 jo =3 小 3 个 或 3 个 
以 上 标准 差 的 概率 为 0.0013。 如 果 原 假设 为 真 ， 这 个 结果 是 不 大 可 能 发 生 的 。 | 

在 已 知 的 情形 下 对 总 体 均值 进行 假设 检验 ,我们 用 标准 正 态 随机 变量 z 作为 检验 统计 量 (test statistic》 来 
确定 zx 是 否 偏离 假定 值 足够 远 ， 从 而 有 理由 拒绝 原 假设 。 令 cs = xc/Vn， 检 验 统计 量 如 下 。 





下 侧 检 验 的 关键 问题 在 于 : 检验 统计 量 z 的 值 必须 达到 多 小 的 时 候 ， 我 们 才能 选择 拒绝 原 假 设 ” 有 两 种 方法 
可 以 解决 这 个 间 题 ，p- 值 法 和 临界 值 法 。 
ey RR 值 oli -value) 
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二 起 乡 。 1 

p- 值 用 于 确定 是 否 拒绝 原 假设 。 我 们 看 看 如 何 计算 和 使 用 产值 。 利 用 检验 统计 量 计算 产值 。 用 于 计算 p- 值 的 
方法 依赖 于 检验 是 下 侧 检验 、 上 侧 检验 还 是 双 侧 检验 。 对 于 下 侧 检验 ，p- 值 是 检验 统计 量 小 于 或 等 于 样本 所 给 出 
的 检验 统计 量 的 值 的 概率 。 从 而 ,在 已 知 的 情形 下 为 了 计算 下 侧 检验 的 p- 值 ， 我 们 必须 得 到 标准 正 态 曲线 下 在 
检验 统计 量 的 值 左近 部 分 的 面积 。 在 计算 出 产值 以 后 ， 我 们 必须 决定 它 是 否 小 到 足以 拒绝 原 假设 ; 正如 我 们 将 要 
说 明 的 那样 ， 这 需要 将 计算 出 的 产值 与 显著 性 水 平 进行 比较 。 

我 们 现在 计算 Hilltop 咖啡 问题 中 下 侧 检 验 的 产值。 假定 选取 36 听 Hilltop 咖啡 组 成 一 个 样本 ， 样 本 均值 x = 
2. 92 磅 。*=2.92 是 否 小 到 足以 拒绝 H,? 因为 这 是 一 个 下 侧 检 验 ，p- 值 是 标准 正 态 曲线 下 在 检验 统计 量 的 值 左 边 
部 分 的 面积 。 利 用 * =2.92，e =0. 18 和 n=36， 我 们 计算 检验 统计 量 z 的 值 为 

% — Ko 2.92 -3 
i dn 

从 而 ,，p- 值 为 检验 统计 量 z 小 于 或 等 于 - 2. 67 的 概率 (标准 正 态 
曲线 下 在 检验 统计 量 的 值 下 侧 部 分 的 面积 ) 。 

利用 标准 正 态 概率 表 ， 我 们 查 得 z= -2.67 下 侧 的 面积 为 
0.0038。 图 9-2 给 出 了 与 =2.92 相对 应 的 检验 统计 量 z= -2.67 
和 产值 =0.003 8。p- 值 表明 ， 当 从 j=3 的 总 体 进行 抽样 时 ， 所 得 
到 的 样本 均值 为 x=2.92 (相应 的 检验 统计 量 为 -2.67) 或 者 更 小 
的 概率 是 很 小 的 。 这 个 p- 值 没有 支持 原 假设 , 但 是 它 小 到 是 以 能 
够 使 我 们 拒绝 Hu 了 吗 ? 答案 依赖 于 检验 的 显著 性 水 平 。 

正如 前 面 所 说 ，FTC 检验 的 项 目 负责 人 选取 0. 01 作为 显著 性 
水 平 。 选 择 a =0. 01 意味 着 : 在 原 假设 以 等 式 形式 〈 即 mm =3) 成 
立时 ， 负 责 人 愿意 容许 以 0. 01 的 概率 拒绝 原 假设 。 在 Hilltop 问题 
的 研究 中 ， 由 36 听 咖 啡 组 成 一 个 样本 ， 所 得 疡 值 =0. 0038 ， 这 意 
味 着 : 当 作为 一 个 等 式 的 原 假设 为 真 时 ， 得 到 * = 2. 92 或 者 更 小 x ”图 9-2 ”Hilitop 咖啡 的 研究 中 ， 当 =2.92 和 
的 值 的 概率 为 0. 003 8。 由 于 0. 003 8 小 于 或 者 等 于 a =0.01 ， 故 我 z= -2.67 时 ， 求 得 的 产值 





5 的 抽样 分 布 


日 少 的 m 值 表明 ， 检 验 统计 旺 的 值 通常 不 能 得 出 假设 Ho 为 真 的 结论 。 
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们 拒绝 Ho， 从 而 在 0.01 的 显著 性 水 平 下 我 们 发 现 有 足够 的 统计 证 据 拒绝 原 假设 。 
我 们 现在 可 以 陈述 利用 产值 法 确定 是 否 可 以 拒绝 原 假 设 的 基本 规则 。 对 于 给 定 的 显著 性 水 平 a，p- 值 法 的 拒 
绝 法 则 如 下 。 





在 Hilltop 咖啡 的 检验 中 ，P- 值 =0. 003 8， 于 是 拒绝 原 假设 。 是 否 拒绝 原 假设 需要 将 p- 值 与 FTC 负责 人 选取 的 
显著 性 水 平 进行 比较 。 实 测 的 产值 =0.003 8 意味 着 对 于 任何 w>0. 003 8 的 情形 ， 我 们 都 将 拒绝 H,。 因 此 ，p- 值 
也 被 称 为 实际 显著 性 水 平 。 

不 同 的 决策 者 可 能 对 发 生 第 类 错误 的 成 本 有 不 同 的 看 法 ， 从 而 选择 不 同 的 显著 性 水 平 。 将 p- 值 做 为 候 设 检 
验 的 一 部 分 ， 决策 者 可 以 将 报告 的 p- 值 与 自己 的 显著 性 水 平 进 行 比较 ， 从 而 可 对 是 否 拒绝 H, 作 出 各 自 不 同 的 
决定 。 

临界 值 法 “临界 值 法 要 求 我 们 首先 确定 被 称 为 临界 值 的 检验 统计 量 的 值 。 对 于 下 侧 检验 ， 临 界 值 ( critical 
value) 是 确定 检验 统计 量 的 值 是 否 小 到 足以 拒绝 原 假设 的 一 个 基准 。 在 检验 统计 量 的 抽样 分 布 中 ， 与 下 侧面 积 a 
(显著 性 水 平 ， 相 对 应 的 值 是 检验 统计 量 的 临界 值 。 换 句 话 说 ， 临 界 值 是 使 得 我 们 拒绝 原 假设 的 检验 统计 量 的 最 
大 值 。 我 们 回 到 Hilltop 咖啡 的 例子 中 ， 看 看 如 何 使 用 临界 值 法 。 

在 a 已 知 的 情形 下 ,检验 统 计量 z 的 抽样 分 布 是 标准 正 态 分 布 。 从 

， 临 界 值 是 标准 正 态 概率 分 布 中 与 下 侧面 积 w =0. 01 相对 应 的 检验 统 “ar 
计量 的 值 。 利 用 标准 正 态 概 率 分 布 表 ， 我 们 发 现 z= -2.23 的 下 侧面 积 。 的 抽样 分 布 
等 于 0.01 ( 见 图 9-3) 。 从 而 ， 如 果 由 样本 所 得 到 的 检验 统计 量 的 值 小 于 
或 等 于 -2. 23 ， 则 相应 的 产值 将 小 于 或 等 于 0, 01。 在 这 种 情况 下 ,我 们 
将 拒绝 原 假设 。 从 而 ， 在 Hilltop 咖啡 的 研究 中 ， 在 0.01 的 显著 性 水 平 
下 临界 值 的 拒绝 法 则 是 






在 Hilltop 咖啡 的 例子 中 ， 与 x = 2.92 相对 应 的 检验 统计 量 
= -2.67。 由 于 z= -2.67 < -2.23， 所 以 我 们 拒绝 Hu 并 且 得 出 结论 认为 Hilltop 咖啡 的 分 量 不 足 。 
我 们 可 以 将 临界 值 法 的 拒绝 法 则 推广 到 任意 的 显著 性 水 平 。 下 侧 检验 的 拒绝 法 则 如 下 。 


值 是 -2. 23 





小 结 


假设 检验 的 产值 法 与 临界 值 法 总 是 得 出 相同 的 拒绝 结论 ， 即 每 当 P- 值 小 于 等 于 w 时 ， 检 验 统计 量 的 值 将 小 于 
或 等 于 临界 值 。p- 值 法 的 优点 在 于 ，p- 值 能 够 告诉 我 们 结果 有 和 多么 显著 ( 实际 显著 性 水 平 )。 而 如 果 使 用 临界 什 
法 ， 我 们 只 能 得 到 在 规定 的 显著 性 水 平 下 结果 是 否 显 著 。 

在 本 节 的 开头 ， 我 们 说 总 体 均值 的 单 侧 检验 采用 以 下 两 种 形式 之 一 : 

下 侧 检验 。 ”上 侧 检 验 
Hip > Mn Ho:p < pw 
Hp <p Hp>m 
我 们 通过 对 Hilltop 咖啡 问题 的 研究 说 明了 如 何 进行 下 机 检验 。 我 们 可 以 用 相同 的 思路 进行 上 侧 检验 。 仍 然 通 
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过 式 〈9-1) 计算 检验 统计 量 。 但 是 ， 对 于 上 侧 检验 ，p- 值 是 检验 统计 量 大 于 或 等 于 样本 所 给 出 的 检验 统计 量 的 
值 的 概率 。 从 而 ,为 了 在 o 已 知 的 情形 下 计算 上 侧 检验 的 产值 ， 我 们 必须 利用 标准 正 态 分 布 求 出 = 大 于 或 等 于 检 
验 统计 量 值 的 概率 。 采 用 临界 值 法 时 ， 如 果 检验 统计 量 的 值 大 于 或 等 于 临界 值 x ， 则 我 们 将 拒绝 原 假设 ; 换 句 话 
说 ， 如 果 z>z， 则 拒绝 Hu。 

单 侧 假设 检验 中 疡 值 的 计算 步 又 总 结 如 下 。 


7— 









9. 3.2 ” 双 侧 检验 
在 假设 检验 中 ， 关 于 总 体 均 值 的 双 侧 检验 (two-tailed test) 的 一 般 形式 如 下 : 
Huo: = An 
H, ;以 天 Ho 


在 这 一 小 节 ， 我们 将 介绍 如 何在 o 已 知情 形 下 对 总 体 均 值 进 行 双 侧 检 验 。 我 们 以 Maxflight 有 限 公 司 的 假设 检验 为 例 。 

制定 了 一 些 标准 ， 高 尔 夫 设备 制造 商 如 果 想 让 他 们 的 产品 用 于 美国 高 尔 夫 球 联合 会 (USGA) 的 赛事 ， 则 必须 达 
到 USGA 的 一 套 标准 。Maxflight 有 限 公司 最 近 采 用 一 种 高 技术 制造 工艺 生产 高 尔 夫 球 ， 其 平均 发 球 距 离 达 到 295 码 。 
然而 ， 这 种 制造 工艺 有 时 发 生 调控 失常 ， 导 致 所 生产 的 高 尔 夫 球 的 平均 发 球 距离 不 是 295 码 。 当 平均 发 球 距离 低 于 
295 码 时 ， 公 司 担心 由 于 高 尔 夫 球 的 平均 发 球 距离 没有 达到 广告 中 宣传 的 那么 远 而 使 销售 量 减 少 。 当 球 的 平均 发 球 距 
离 超过 295 码 时 ，Maxflight 的 高 尔 夫 球 将 因为 超过 USGA 制定 的 击 出 和 滚动 总 距离 标准 而 被 USGA 拒绝 。 

Maxflight 的 质量 控制 程序 定期 选择 50 个 高 尔 夫 球 组 成 样本 来 监控 制造 工艺 过 程 。 对 每 个 样本 进行 假设 检验 ， 
确定 制造 工艺 是 否 失控 。 我 们 建立 原 假 设 和 备 择 假设 。 我 们 从 假定 制造 工艺 仍然 正常 运行 开始 ， 即 所 生产 的 高 尔 
夫 球 的 平均 击 球 距 离 为 295 码 。 这 个 假定 构成 原 假设 。 备 择 假 设 是 平均 距离 不 等 于 295 码 。 今 假设 值 u。=295， 则 
Maxflight 假设 检验 的 原 假 设 和 备 择 假设 如 下 : 

Ho, :1p = 295 
H, :ww A 295 

如 果 样 本 均值 明显 小 于 295 码 或 明显 大 于 295 码 ， 则 我 们 拒绝 H,。 此 时 ,采取 的 矫正 措施 是 调整 制造 工艺 。 
另 一 方面 ， 如 果 样 本 均值 * 没 有 明显 地 偏离 假定 的 均值 x。=295， 将 不 会 拒绝 H,， 也 不 会 采取 任何 矫正 措施 去 调 
整 制造 流程 。 

质量 控制 小 组 选择 w =0. 05 做 为 检验 的 显著 性 水 平 。 在 制造 流程 处 于 正常 运行 时 ， 根 据 前 期 检验 的 数据 ， 可 
以 假定 已 知 总 体 标准 差 为 o =12。 样 本 容量 n=50 时 ,x 的 标准 误差 为 


= 
nr v0 
由 于 样本 容量 较 大 ， 根 据 中 心 极限 定理 可 知 ; x 的 抽样 分 布 近似 服从 正 态 分 布 ( 见 第 7 章 ) 。 图 9-4 是 当 假 定 总 体 
均值 w =295 时 ，Maxflight 假设 检验 中 x 的 抽样 分 布 。 x 的 抽样 分 布 /站 
假定 抽取 50 个 高 尔 夫 球 组 成 一 个 样本 ， 样 本 均值 * =297.6 码 。 人 RN 0.= 千 = 焕 -17 


样本 均值 支持 作出 总 体 均 值 大 于 295 码 的 结论 。z 的 值 超过 295 码 
是 否 足 够 大 ， 使 得 我 们 能 够 在 0.05 的 显著 性 水 平 下 拒绝 Hu。 在 上 
一 节 中 ,我 们 介绍 了 两 种 方法 来 回答 这 个 问题 : p- 值 法 和 临界 值 法 。 

户 值 法 p- 值 是 一 个 用 于 确定 是 否 能 够 拒绝 原 假设 的 概率 值 。 CE 
对 于 双 侧 检验 ， 若 检验 统计 量 的 值 位 于 抽样 分 布 的 两 侧 尾 部 ， 则 支 ”图 9-4 Maxflight 假 设 检验 中 x 的 抽样 分 布 






已 
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持 拒绝 原 假设 。 对 于 双 侧 检验 ，p- 值 是 一 个 概率 值 ， 用 来 衡量 检验 统计 量 与 根据 样本 计算 得 出 的 检验 统计 量 值 存 
在 明显 差异 的 程度 。 下 面 ， 我 们 看 看 在 Maxflight 假设 检验 中 如 何 计算 p- 值 。 ‘ 

我 们 首先 计算 检验 统计 量 的 值 。 在 o 已 知 的 情形 下 ， 检 验 统计 量 是 一 个 标准 正 态 随机 变量 。 利 用 式 (9-1) 
和 x*=297.6， 检 验 统计 量 的 值 为 


pe 

为 了 计算 5- 值 ， 现在 必须 计算 检验 统计 量 的 值 与 :=1.53 不 同 的 概率 。 显 然 ，z=1. 53 的 任何 值 都 与 =1.53 不 
同 ; 但 是 ， 因 为 这 是 一 个 双 侧 检验 ， 所 以 z< -1. 53 的 任何 值 也 都 与 := -1.53 不 同 。 在 图 9-5 中 可 见 ， 这 个 例子 
中 双 侧 检验 的 产值 为 P(z< -1.53) +P(z=1.53)。 因 为 正 态 曲线 是 对 称 的 ， 可 以 先 计算 标准 正 态 曲线 下 z= 1. 53 
右 侧 区 域 的 面积 ， 然 后 再 乘 以 2 即 得 到 p- 值 。 查 标准 正 态 分 布 表 可 得 ，P(z < 1.53) =0.937 0。 从 而 ， 上 侧面 积 
P(z=1.53) =1.0000 -0.937 0 =0.0630， 再 乘 以 2， 我 们 得 到 Maxflight 双 侧 检验 的 产值 =2 x0. 063 0 =0. 126 0。 

接 下 来 ,我 们 将 p- 值 与 显著 性 水 平 进行 比较 ， 看 是 否 应 该 拒绝 原 假设 。 车 取 显 著 性 水 平 a =0.05， 由 于 
Pp- 值 =0.1260 >0. 05 ， 故 不 能 拒绝 Hu。 因 为 原 假设 没有 被 拒绝 ， 所 以 不 必 调 整 Maxflight 的 制造 流程 。 

与 单 侧 检验 中 p- 值 的 计算 相 比 ， 双 侧 检验 中 p- 值 的 计算 看 上 去 似乎 略为 复杂 。 双 侧 假 设 检验 p- 值 的 计算 可 简 









临界 值 法 ”在 结束 这 一 节 之 前 ， 我们 看 看 如 何 将 检验 统计 量 z 的 值 和 临界 值 进行 比较 ， 从 而 对 一 个 双 侧 检验 
作出 假设 检验 决策 。 由 图 9-6 可 见 ， 检 验 的 临界 值 位 于 标准 正 态 分布 的 上 侧 尾 端 和 下 侧 尾 端 。 取 显著 性 水 平 a = 
0.05 时 ， 每 侧 尾 端 临界 值 所 对 应 的 面积 为 a/2 = 0. 0572 =0.025。 查 标准 正 态 概率 表 可 知 ， 检 验 统计 量 的 临界 值 
-am= 一 1.96 和 zws =1.96。 从 而 ， 利 用 临界 值 法 ， 双 侧 检验 的 拒绝 法 则 是 
如 果 z 到-1.96 或 者 5 三 1.96, 则 拒绝 H， 


Pd < -153)=00630MA >〈 









1s 人 一 于 I 
纪 0 让 
一 p- 值 =2(0.063 0) =0.1260 二 拒 匈 可 | Er 
图 9-5 ”Maxflight 假设 检验 的 产值 图 9-6 ”Maxfiight 假设 检验 的 临界 值 


因为 Maxflight 研究 中 检验 统计 量 的 值 2=1.53, 在 0.05 的 显著 性 水 平 下 统计 证 据 不 允许 我 们 拒绝 原 假 设 。 
9.3.3 /J | : 


我 们 给 出 了 总 体 均值 的 下 侧 检 验 和 双 侧 检验 的 例子 。 根 据 这 些 例 子 ， 我 们 现在 可 以 将 o 已 知 的 情形 下 总 体 均 
值 的 假设 检验 方法 汇总 在 表 9-2 中 。 注 意 ， 其 中 jw 是 总 体 均 值 的 假设 值 。 


x"uam 琶 一 "| 
' FE 蛙 
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1， 本 节 两 个 例 予 中 假设 检验 的 步骤 对 于 任何 假设 
表 9-2 总 体 均值 假设 检验 的 小 结 : o 











如 果 产 值 生 we， 则 拒绝 Ho 
如 有 果 “< -za 或 者 zz07s ， 则 拒绝 Ho 





TT pn 
wn 多 
J 





似 。 在 绝 大 多 数 应 用 中 ， mi yop Plo ttn 实 本 容量 n 30 就 是 够 了 。 在 样本 容量 小 于 30 的 情 
形 下 ， 则 要 特别 关注 抽样 的 总 体 分 布 。 如 果 总 体 是 正 态 分 布 的 ， 则 我 们 所 描述 的 假设 检验 方法 是 精确 的 ， 从 而 适 











信 的 结果 。 
9. 3. 4 ”区间 估计 / , 
在 第 8 章 中 我 们 介绍 了 如 何 估 计 总 体 均值 的 置信 区 间 。 在 o 已 知 的 情形 下 ， 总 体 均值 的 100(1 -a)% 置信 区 
间 估 计 为 
% 十 部 
在 本 章 中 ， 总 体 均值 的 双 侧 假设 检验 中 原 假设 和 备 择 假设 的 形式 如 下 | 
Ho:p = An 
Hi:g Wo 


式 中 ,pw 为 总 体 均值 的 假设 值 。 
假定 我 们 沿用 第 8 i 妆 休 物业 的 二 rs pe 加 区 网。 rh le 中 ， 有 


可 于) 


100(1 -a)% 将 包含 
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因此 ， 构 造 一 个 100(1 - we)% 置信 区 间 ， 并 且 当 团 信 区间 不 包含 雇 时 拒绝 可,， 等 价 于 在 显著 性 水 平 a 下 进行 双 侧 
假设 检验 。 利 用 置信 区 间 进 行 双 侧 假设 检验 的 方法 概括 如 下 。 


请 
on J 





以 下 形式 。 


H, ww #¥ 295 





D076 43 
或 者 
Sa 3,300.9) 





本 只 林 过 这 商 要 训 下 六 
的 是 单 侧 置信 区 间 而 已 。 单 侧 置信 区 间 在 应 用 中 较 少 遇 到 。 





我 们 已 经 说 明了 如 何 利 用 p- 值 。p 值 越 小 ， 则 拒绝 再 ,的 证 据 越 多 ， 从 而 支持 再 的 证 据 越 多 。 下 面 是 统计 学 家 
给 出 的 一 些 用 于 解读 p- 值 时 的 指导 意见 。 
e p- 值 小 于 0.01 一 一 强 有 力 的 证 据 断 定 HH, 为 真 。 
。 p- 值 介 于 0.01 ~0.05 一 一 有 力 证 据 断 定 昌 , 为 真 。 
。 p- 值 介 于 0.05 ~0.10 一 一 能 的 证 据 断 定 百 为 真 。 
。 p- 值 大 于 0.10 一 一 没有 足够 的 证 据 断 定 昌 , 为 真 。 








© ee i 如 果 wo 恰 好 位 于 100(1 -a )% 置 信 区 间 的 端点 则 拒绝 Hu; 在 p- 值 法 的 拒绝 法 则 中 ， 如 果 p- 值 <a 
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提示 : 下 边 的 习题 中 有 一 些 要 求 用 p- 值 法 ， 男 一 些 要 


求 使 用 临界 值 法 。 这 两 种 方法 将 得 到 相同 的 假设 检验 
结论 。 我 们 对 这 两 种 方法 都 提供 了 习题 供 你 进行 练习 。 
下 一 节 以 及 其 余 各 章 中 ,我 们 要 偏好 使 用 p- 值 法 。 你 
可 以 根据 个 人 偏好 选择 其 中 任何 一 种 方法 。 

方法 


次 10. 


2 


14. 


a. %=23 b,x=25:1 ci*=M 
应 用 
16. 在 一 项 针对 “大 学 毕业 生 信 用 卡 使 用 情况 ”的 研 


考虑 如 下 假设 检验 

Hn 25 

H,:w > 25 
一 个 容量 为 40 的 样本 中 ， 样 本 均值 为 26.4。 总 体 
标准 差 为 6。 
a 计算 检验 统计 量 的 值 。 
b. p- 值 是 多 少 ? 
c. Q=0.01 时 ， 你 的 结论 是 什么 ? 
d， 临界 和 值 法 中 的 拒绝 法 则 是 什么 ?7 你 的 结论 是 什么 ? 
考虑 下 面 的 假设 检验 

Hu 三 80 

H,:w < 80 
利用 一 个 容量 为 100 的 样本 ， 总 体 标准 差 为 12。 
取 a=0.01， 对 下 面 的 每 种 抽样 结果 ， 计 算 p- 值 ， 
并 陈述 你 的 结论 。 
ay 三 TS w=77 
考虑 下 面 的 假设 检验 

Hoi:= 22 

H,:g A 22 
利用 一 个 容量 为 75 的 样本 ， 总 体 标 准 差 为 10。 取 
Qa =0.01， 对 下 面 的 每 种 抽样 结果 ， 计 算 相应 的 记 - 
值 ， 并 陈述 你 的 结论 。 


号 dx =81 


究 报 告 中 ， 认 为 大 学 毕业 生 信 用 卡 余 额 的 均值 为 
3 173 美 元 (Sallie Mae，2009 年 4 月 )。 这 一 数字 
达到 历史 新 高 ， 与 五 年 前 相 比 增加 了 4 笠 %a 假设 
目前 要 进行 一 项 研究 ， 确 定 是 否 可 以 得 出 结论 认为 
毕业 生 信 用 卡 余额 的 均值 与 2009 年 4 月 的 报告 相 
比 是 持续 增加 的 。 根 据 已 有 的 研究 ， 令 总 体 标准 差 
为 oo=1000 美元 。 

a. 提出 原 假 设 和 备 择 假设 。 





20. 


22. 


b. 由 180 名 大 学 毕业 生 组 成 一 个 样本 ,信用卡 余 
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额 的 样本 均值 为 3 325 美 元 。 求 p- 值 是 多 少 ? 
c. 在 a=0.05 的 显著 性 水 平 下 ， 和 你 的 结论 是 什么 ? 


. 1999 ~2003 年 ， 美 国 多 样 化 股票 互助 基金 的 年 平 


均 收 益 为 4.1% (《 商 业 周 刊 》，2004 年 1 月 26 

日 ) 。 一 名 研究 者 想 要 通过 假设 检验 来 确定 ， 中 型 

成 长 型 基金 的 年 平均 收益 与 美国 多 样 化 股票 互助 

基金 的 年 平均 收益 在 同一 时 期 是 否 存 在 显著 差异 。 

a. 提出 假设 ， 用 于 确定 中 型 成 长 型 基金 年 平均 收益 是 
否 与 美国 多 样 化 股票 基金 的 年 平均 收益 存在 差异 。 

b， 由 40 只 中 型 成 长 型 基金 组 成 一 个 样本 ， 年 收益 
的 样本 均值 x 为 3.4% 。 根 据 已 有 的 研究 ， 可 以 
假定 已 知 中 型 成 长 型 基金 的 总 体 标准 差 0 = 
2% 。 利 用 样本 结果 ， 计 算 假设 检验 的 检验 统计 
量 和 P 值 。 

c. 在 a=0.05 的 显著 性 水 平 下 ， 你 的 结论 是 什么 ? 

在 美国 ， 家 庭 每 个 月 的 互联 网 账单 的 均值 为 32.79 

美元 (CNBC，2006 年 1 月 18 浊 Jp 下 南部 一 个 州 

的 50 个 家 庭 组 成 的 样本 显示 ， 样 本 均值 为 x = 

30, 63 美元 。 取 总 体 标 准 差 oo =5.6 美元 。 

a. 提出 假设 ， 用 于 确定 样本 数据 是 否 支 持 作出 结 
论 : 南部 州 的 家 庭 每 个 月 互联 网 账单 的 均值 低 
于 全 美 32. 79 美元 的 平均 水 平 。 

b. 检验 统计 量 的 值 是 多 少 ? 

c， Pp- 值 是 多 少 ? 

d 在 @=0.01 的 显著 性 水 平 下 ， 你 的 结论 是 什么 ? 

CNN 和 ActMedia 提供 了 一 个 专门 的 电视 频道 ， 向 

那些 在 超市 收银 台 前 等 待 结 账 的 顾客 播放 新 闻 、 

广告 和 短 讯 。 假 定 在 超市 收银 台 前 顾客 等 待 结 账 

时 间 的 总 体 均 值 为 8 分钟， 并 以 此 为 依据 决定 电 

视 节 目的 长 度 。 由 实际 等 待 时 间 组 成 一 个 样本 ， 

并 利用 样本 进行 检验 ， 从 而 判断 实际 等 待 时 间 的 

均 箱 与 此 标准 之 间 是 否 存 在 差异 。 

a 提出 这 一 应 用 的 假设 。 

b. 由 120 名 购物 者 组 成 一 个 样本 ， 等 待 时 间 的 均 
值 为 8.4 分 钟 5 .假定 总 体 标 准 差 吕 =3.2 分 钟 。 
求 p- 值 是 多 少 ? 

c. 在 a=0.05 的 显著 性 水 平 下 ， 你 的 结论 是 什么 ? 

d. 计算 总 体 均 值 的 95% 置信 区 间 。 它 支持 你 的 结 
论 吗 ? 
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9.4 总 体 均值 的 检验 : c 未 知情 形 


本 节 我 们 说 明 在 o 未 知情 形 下 如 何 对 总 体 均值 进行 假设 检验 。 由 于 o 未 知情 形 与 在 抽样 前 无 法 对 总 体 标准 差 
进行 点 估计 的 情形 相对 应 ， 因 此 必须 利用 样本 同时 估计 e 入 。 于 是 ， 在 a 未 知情 形 下 对 总 体 均 值 进 行 假设 检验 
时 ， 利 用 样本 均值 过 估计 疡 ， 用 样本 标准 差 * 估计 er。 

在 o 未 知情 形 下 ， 假 设 检验 的 步骤 与 第 9. 3 节 描 述 的 o 已 知情 形 下 的 步骤 相同 。 但 是 ， 由 于 未 知 ，P- 值 和 
检验 统计 量 的 计算 上 稍 有 不 同 。 在 o 已 知情 形 下 ， 检 验 统计 量 的 抽样 分 布 是 标准 正 态 分 布 。 然 而 ,在 o 未 知情 形 
下 检验 统计 量 的 抽样 分 布 是 + 分布。 由 于 根据 样本 对 伺 和 cr 同时 进行 估计 ，: 分 布 的 变异 性 更 强 。 

我 们 在 第 8. 2 节 中 已 经 介绍 过 ， 在 未 知情 形 下 ， 总 体 均 值 的 区 间 估 计 是 基于 被 称 为 上 分 布 的 概率 分 布 。 在 
o 未 知情 形 下 ， 总 体 均 值 的 假设 检验 仍然 是 基于 1 分布。 对 于 o 未 知情 形 ， 检 验 统计 量 服 从 自由 度 为 m -1 的: 
分 布 。 





在 第 8 章 中 我 们 讲 到 ，: 分 布 是 在 假设 抽样 总 体 服从 正 态 分 布下 得 到 的 。 然 而 ， 研 究 表明 ， 在 样本 容量 足够 
大 的 情形 下 ， 可 以 考虑 适当 放松 这 一 假设 。 在 本 节 未 ,我们 将 给 出 实际 应 用 中 关于 总 体 分 布 和 样本 容量 的 一 些 
建议 。 


9.4.1 单 侧 检验 
在 a 未 知情 形 下 ,我 们 考虑 关于 总 体 均值 单 侧 检 验 的 例子 。 一 本 商务 旅行 方面 的 杂志 想 根据 商务 旅客 总 体 的 
评定 来 划分 跨 太平 洋 通道 的 机 场 等 级 。 评 定 标准 中 最 低 分 为 0， 最 高 分 为 10。 总 体 平 均等 级 超过 7 的 机 场 将 被 认 
为 是 提供 了 优质 服务 的 机 场 。 杂 志 的 职员 在 每 一 个 机 场 选取 60 名 商务 旅客 组 成 一 个 样本 ， 得 到 他 们 的 评级 数据 。 
在 伦敦 希 斯 罗 机 场 的 样本 中 ， 样 本 均值 *=7. 25 分 ， 样 本 标准 差 *=1. 052 分 。 数 据 能 否 表明 希 斯 罗 机 场 可 以 被 认 
为 是 提供 了 优质 服务 的 机 场 ? 数据 存 于 文件 AirRating 中 。 
我 们 想 要 进行 一 个 假设 检验 ， 拒 绝 HH, 将 会 得 出 结论 : 希 斯 罗 机 场 的 总 体 平 均等 级 大 于 7 分 。 因 此 ， 要 求 采 用 
上 侧 检验 ， 其 中 H,:n >7。 上 侧 检验 的 原 假设 和 对 立 假 设 如 下 : 
Ho:n < 7 
H:x >7 
检验 中 取 显 著 性 水 平 w=0.05。 
利用 式 (9-2) ,x=7.25, jw =7,s=1.052 和 n=60， 检验 统 计量 的 值 为 


a 
i 分 布 的 自由 度 为 n -1=60 -1=359。 由 于 该 检验 是 一 个 上 侧 检验 ， 因 此 产值 =P(t>1.84) ， 即 上 分 布 曲 线 下 统计 
量 的 值 :=1.84 右 侧 的 面积 。 
“ 绝 大 多 数 教科 书 里 提供 的 1 分布 表 都 没有 详细 到 能 使 我 们 确定 精确 的 p- 值 的 地 步 ， 比 如 ， 与 :=1. 84 相对 应 
的 p- 值 。 例 如， 利用 附录 B 中 的 表 2， 自 由 度 为 59 的 上 分 布 给 出 了 下 面 的 信息 。 


上 侧面 积 0.20 0. 10 0. 05 0. 025 0. 01 0. 005 


t 值 (自由 度 为 59) 
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我 们 看 到 ，# = 1. 84 介 于 1. 671 ~ 2. 001。 虽 然 ， 该 表 不 能 给 出 精确 的 产值 , 但 是 “上 侧面 积 ” 这 一 行 中 的 数 
值 说 明 : 产值 一 定 大 于 0. 025 而 小 于 0.05。 在 a=0.05 的 显著 性 水 平 下 ， 我 们 根据 这 些 信 息 足 以 作出 拒绝 原 假设 
的 决策 ， 并 且 得 到 结论 : 应 该 将 希 斯 罗 机 场 评定 为 提供 了 优质 服务 的 机 场 。 

使 用 t 分 布 表 计算 p 值 非常 烦琐 ,并且 只 能 给 出 近似 的 值 ; 我 们 将 在 附录 了 中 说 明 如 何 用 Excel 或 者 Minitab 
计算 p 值 。 在 希 斯 罗 机 场 的 假设 检验 中 ，t=1. 84， 利 用 Excel 或 者 Minitab 所 计算 出 的 精确 的 p- 值 为 0.0354。 由 
于 0.035 4 <0.05， 我 们 拒绝 原 假设 并 作出 结论 : 认为 应 该 将 希 斯 罗 机 场 评定 为 提供 了 优质 服务 的 机 场 。 

在 og 未 知情 形 下 ， 使 用 临界 值 法 同样 可 以 得 出 原 假设 是 否 被 拒绝 的 结论 。 自 由 度 为 59 的 :分布 中 ， 上 侧面 积 
a =0.05 对 应 于 临界 值 为 ,os =1. 671， 因 此 ， 使 用 临界 值 法 的 拒绝 法 则 为 : 如果 t 宇 1.671， 则 拒绝 Ho。 由 于 := 
1. 84 >1. 671 ， 所 以 拒绝 Hi。 和 希 斯 罗 机 场 被 评定 为 提供 了 优质 服务 的 机 场 。 


9. 4.2 双 侧 检验 


作为 a 未 知情 形 下 总 体 均值 的 双 侧 假设 检验 的 例子 ， 考 虑 Holiday Toys 假设 检验 中 所 面临 的 问题 。 企 业 生 产 
产品 并 通过 超过 1 000 多 家 的 零售 商 分 销 其 产品 。 在 为 即将 到 来 的 冬季 制定 生产 规模 计划 时 ，Holiday Toys 必须 在 
知道 零售 层面 的 实际 需求 量 前 确定 每 种 产品 生产 的 数量 。 对 本 年 度 最 重要 的 一 种 新 球 玩 具 ，Holiday Toys 的 市 场 负 
责 人 预计 平均 每 家 零售 商 的 需求 量 为 40 个 。 在 根据 这 一 估计 作出 最 后 的 生产 决策 之 前 ，Holiday Toys 决定 对 5 个 
零售 商 组 成 的 样本 进行 调查 ， 以 便 得 到 有 关 这 种 新 款 玩具 需求 量 的 更 多 信息 。 在 向 每 个 零售 商 提 供 有 关 这 种 新 款 
玩具 的 特征 、 成 本 以 及 建议 零售 价格 等 方面 的 信息 后 ， 要 求 每 个 零售 商 给 出 一 个 预计 的 订货 量 。 

令 丘 表示 零售 商 订货 量 的 总 体 均值 ， 根 据 样 本 数据 进行 以 下 双 侧 假设 检验 : 

Ho sp = 40 

Hi:w 2 40 
如 果 不 能 拒绝 Hu ， 那 么 Holiday Toys 将 继续 根据 市 场 负责 人 的 估计 制定 生产 计划 ， 认 为 每 家 零售 商 订 货 量 的 总 体 
均值 为 40 个。 然而， 如 果 拒 绝 Hu， 那 么 Holiday Toys 将 会 立即 重新 评估 产品 的 生产 计划 。 因 为 当 零 售 商 订货 量 的 
总 体 均 值 小 于 或 者 大 于 预计 数量 时 ，Holiday Toys 就 要 重新 对 其 生产 计划 进行 评价 ， 所 以 采用 双 侧 假设 检验 。 由 于 
没有 历史 数据 可 以 利用 (这 是 一 种 新 产品 ) ， 所 以 必须 从 样本 数据 出 发 用 x 和 s 估计 总 体 均 值 和 总 体 标准 差 。 

由 25 家 零售 商 组 成 一 个 样本 ， 数 据 存 在 文件 Orders 中 ， 样 本 均值 *=37.4, 标准 差 s=11.79 个 。 在 利用 :分 
布 之 前 ,为 了 了 解 总 体 分 布 的 形状 ， 分析 人 员 绘 制 了 样本 数据 的 直方 图 。 样 本 数据 的 直方 图 表明 ， 没 有 偏 斜 或 者 
异常 点 存在 ， 于 是 分 析 人 员 认 为 采用 自由 度 n -1 =24 的 :分 布 是 合适 的 。 利 用 式 (9-2),，%=37.4, jw =40，s = 
11.79 和 n=25， 检验 统计 量 的 值 为 


由 于 这 是 一 个 双 侧 检验 ， 因 此 产值 是 :分布 曲 线 下 < -1.10 部 分 面积 的 2 倍 。 利 用 附录 B 中 表 B-2， 目 由 度 
为 24 的 i 分布 提供 以 下 信息 。 


上 侧面 积 
t 值 (自由 度 24) 






t 分 布 表 中 只 包含 正 值 ( 对 应 于 上 侧面 积 )。 然 而 ， 由 于 ;分布 是 对 称 的 ， 从 而 t=4.10 右 侧 曲线 下 方 的 面积 与 
t= =1. 10 左 侧 曲 线 下 方 的 面积 相等 。 我们 看 到 ，t=1.10 介 于 0.857 ~1.318。 在 “上 侧面 积 ” 这 一 行 中 看 到 , : = 
1:10 右 侧 面积 介 于 0.10~0.20, 乘 以 2 后 , p- 值 一 定 介 于 0.20 ~0.40。 在 a=0.05 的 显著 性 水 平 下 ， 我 们 知道 产值 大 
于 a。 所 以 , 我们 不 能 拒绝 Hu， 没有 充分 的 证 据 可 以 得 出 结论 : Holiday Toys 应 在 即将 到 来 冬季 改变 生产 计划 。 

在 附录 下 中 说 明了 如 何 用 Excel 或 者 Minitab 计算 检验 的 p- 值 ， 计 算出 的 p- 值 为 0.2822。 在 a=0.05 的 显著 性 
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水 平 下 ， 由 于 0.2822>0.05， 所 以 不 能 拒绝 H,。 
也 可 以 将 检验 统计 量 与 临界 值 做 比较 来 进行 双 侧 假设 检验 决策 。 取 a =0.05， 自 由 度 为 24 的 :分布 中 双 侧 检 
验 的 临界 值 为 -ws = -2.604 和 ws =2.604。 检验 统 计量 的 拒绝 法 则 为 
奶 果 站 过- 2.604 或 者 十 二 2.604, 则 拒绝 日 
因为 检验 统计 量 1= -1.10， 所 以 不 能 拒绝 Hi 。 这 一 结果 说 明 : 在 即将 到 来 的 季节 里 ，Holiday Toys 应 以 期 望 值 
人 =40 为 依据 ， 继 续 其 生产 计划 。 


9. 4.3 小 结 与 应 用 建议 
表 9-3 给 出 了 在 o 未 知 的 情形 下 对 总 体 均值 进行 假设 检验 的 一 个 总 结 。 与 oo 已 知情 形 的 主要 区 别 在 于 : 计算 
检验 统计 量 时 用 s 代替 oo。 因 此 ， 检 验 统计 量 服从 1 分 布 。 
表 9-3 总 体 均 值 假设 检验 的 小 结 ; o 未 知 


双 侧 检验 








Ho :pp Ho :p< Ho :=p 
kT 四 名 _XA 本 一 有 rn 
检验 统计 量 1 A t t 了 
拒绝 规则 ，p- 值 法 如 果 p- 值 <a， 则 拒绝 Ho 如 果 p- 值 <a， 则 拒绝 Ho 如 果 p- 值 <a， 则 拒绝 Hu 
拒绝 规则 : 临界 值 法 如 果 t< -+t,， 则 拒绝 H。 如 果 1 宇 /, ， 则 拒绝 十， 如 果 t< 一 或 者 1 三 1, 2， 则 拒绝 Hl 


本 广 中 假设 检验 方法 的 应 用 依赖 于 抽样 总 体 的 分 布 以 及 样本 容量 。 如 果 总 体 是 正 态 分 布 ， 则 在 任意 样本 容量 
下 ， 本 市 所 介绍 的 假设 检验 给 出 的 都 是 精确 的 结果 。 如 果 总 体 不 是 正 态 分 布 ， 则 这 些 方 法 是 近似 的 。 尽 管 如 此 ， 
我 们 发 现 大 多 数 情 形 下 ， 当 样本 容量 n=30 时 都 能 给 出 满意 的 结果 。 如 果 总 体 近 似 服从 正 态 分 布 ， 则 在 小 样本 容 
量 下 (比如; 元 <15) 仍 可 以 得 到 满意 的 结果 。 当 总 体 存在 高 度 偏 斜 或 者 有 异常 点 时 ,建议 样 本 容量 应 在 50 
以 上 。 





b. x=96.5 和 s=11.0 





方法 
六 24. 考虑 以 下 假设 检验 c. %=102 和 ss=I0.5 
Ho: = 18 应 用 
H,:u A 18 28. 一 些 股 东 在 提出 一 项 否决 议案 时 ,主张 CEO 的 平 


一 个 容量 为 48 的 样本 中 ， 样 本 均值 为 %&=17， 样 
本 标准 差 为 $ =4.5。 

a. 计算 检验 统计 量 的 值 。 

b. 根据 1 分布 表 (附录 B 中 表 2) 计算 p- 值 的 范围 。 
c a=0.05 时 ， 你 的 结论 如 何 ? 

d. 临界 值 法 的 拒绝 法 则 是 什么 ? 你 的 结论 如 何 ? 


均 任 期 至 少 为 9 年。 据 《华尔街 日 报 》 对 企业 的 
一 项 调查 发 现 ，CEO 任期 的 样本 均值 为 % =7.27 
年 ， 标 准 差 为 s=6.38 年 (《 华 尔 街 日 报 》，2007 
年 1 同 2: 汪 -ao 

a. 提出 假设 ， 用 于 挑战 这 些 股东 主张 的 合理 性 。 

b. 假设 样本 中 有 85 家 企业 。 假 设 检 验 的 p- 值 是 多 少 ? 


26. 考虑 以 下 假设 检验 c. 在 a=0.01 的 显 着 性 水 平 下 ， 你 的 结论 是 什么 ? 
了 :x = 100 30. 到 婚 男 性 用 于 照料 子 妇 时 间 的 掀 值 为 每 周 6.4 个 小 
H, :pw A 100 时 〈《 时 代 周 刊 》，20 到 年 3 月) 一 企 家 庭 护理 方 


根据 一 个 容量 为 65 的 样本 ， 取 aw=0.05， 对 如 下 
每 种 抽样 结果 计算 相应 的 p- 值 ， 并 给 出 你 的 结论 。 
a. X=103 和 s=11.5 


面 的 专业 小 组 想 要 研究 确定 本 地 区 已 婚 男 性 每 周 
用 于 照料 子女 的 时 间 与 报道 中 的 均值 6.4 个 小 时 是 
和 否 有 差异 ， 假 定 你 是 该 小 组 的 一 名 成 员 。 由 40 名 


已 婚 夫 妇 组 成 一 个 样本 并 搜集 丈夫 每 周 用 于 照料 
子女 时 间 的 数据 ， 样 本 数据 存放 在 名 为 ChildCare 
的 文件 中 。 

a 如果 你 所 在 的 小 组 想 要 确定 你 所 属地 区 已 婚 男 
性 用 于 照顾 子女 的 时 间 的 总 体 均 值 是 否 与 《时 
代 周 刊 》 所 报道 的 均值 有 差异 ， 应 该 提出 怎样 
的 假设 ? 

b. 样本 均值 和 p- 值 是 多 少 ? 

c. 选取 一 个 合适 的 显著 性 水 平 ， 据 此 你 得 到 怎样 
的 结论 ? 


32. 据 全 美 汽车 经 销 商 联 合 会 报告 ， 二 手 汽车 的 平均 


价格 为 10 192 美元 。 由 堪萨斯 市 二 手 车 市 场 最 近 
售 出 的 50 辆 二 手 车 组 成 一 个 样本 ， 该 市 场 的 一 名 
管理 人 员 试 图 确定 ， 堪 萨 斯 市 二 手 车 的 平均 价格 
与 全 美的 平均 水 平 是 否 存在 差异 。50 辆 二 手 车 的 
样本 数据 存放 在 名 为 UsedCars 的 文件 中 。 

a. 提出 假设 ， 用 于 确定 该 二 手 车 市 场 的 平均 价格 
与 全 美的 平均 水 平 是 否 存 在 差异 。 


9.5 总 体 比率 
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b. p- 值 是 多 少 ? 
c. 在 a=0.05 的 显著 性 水 平 下 ， 你 的 结论 是 什么 ? 


. 琼 的 Nursery 公司 专门 为 居民 区 的 环境 美化 提供 


设计 服务 。 需 要 依据 种 植 的 树木 、 灌 木 等 数量 来 
估计 一 个 环境 美化 项 目 所 需 的 人 工 成 本 。 管 理 者 
估算 认为 ， 种 植 中 型 树木 需要 花费 的 人 工 成 本 为 
2 个 小 时 。 将 上 个 月 10 次 种 植树 术 所 花费 的 实际 
工作 时 间 组 成 一 个 样本 ,其 数据 如 下 (单位; 
小 时 )。 

上 

p 
在 0.05 的 显著 性 水 平 下 ， 检验 植树 所 需 时 间 的 均 
值 是 否 与 2 小 时 有 差异 。 
a 提出 原 假 设 和 备 择 假设 。 
b. 计算 样本 均值 。 
c, 计算 样本 标准 差 。 
d. p- 值 是 多 少 ? 
e. 你 的 结论 是 什么 ? 


在 本 节 中 ， 我 们 说 明 如 何 对 总 体 比率 进行 假设 检验 。 令 po 代表 总 体 比 率 的 假设 值 ， 关 于 总 体 比率 的 假设 检 

Ho:p = po 
Hp<p Hip>p wh 
称 第 一 种 形式 为 下 侧 检 验 ， 称 第 二 种 形式 为 上 侧 检 验 ， 称 第 三 种 形式 为 双 侧 检验 。 

在 对 总 体 比 率 进行 假设 检验 时 ， 是 基于 样本 比率 7p 与 总 体 比 率 的 假设 值 m 之 差 来 进行 的 。 假 设 检验 所 使 用 的 
方法 与 对 总 体 均值 进行 假设 检验 时 所 使 用 的 方法 相似 ， 唯 一 的 不 同 之 处 是 我 们 利用 样本 比率 和 标准 误差 来 计算 检 
验 统 计量 。 然 后 ， 利 用 p- 值 法 或 者 临界 值 法 确定 是 否 拒 绝 原 假设 。 

我 们 以 Pine Greek 高 尔 夫 球 场面 临 的 问题 为 例 。 去 年 ， 在 Pine Greek 打球 的 人 当中 有 20% 是 女性 。 为 了 增加 
女性 球员 的 比率 ，Pine Greek 推出 了 一 项 特别 的 促销 活动 以 吸引 更 多 的 女性 参加 高 尔 夫 运动 。 在 这 种 特定 的 促销 
活动 实施 一 个 月 以 后 ,高 尔 夫 球 场 的 管理 者 要 求 通过 统计 研究 以 确定 Pine Greek 的 女性 高 尔 夫 球 员 所 占 比 率 是 否 
上 升 。 由 于 研究 的 目的 是 确定 女性 高 尔 夫 球员 所 占 比 率 是 否 上 升 ， 因 此 上 侧 检验 比较 合适 ， 备 择 假设 为 
H.:p >0. 20。Pine Greek 假设 检验 的 原 假设 和 备 择 假 设 如 下 : 

H,:p < 0.20 

H,:p > 0.20 
如 果 能 够 拒绝 下 ， 则 检验 结果 会 对 女性 高 尔 夫 球员 所 十 比率 上 升 的 结论 给 予 统 计 上 的 支持 ， 从 而 说 明 促 销 活 动 是 
有 效 的 。 在 进行 假设 检验 时 ,球场 管理 者 设 定 显 著 性 水 平 a =0. 05。 

假设 检验 的 下 一 步 是 选取 一 个 样本 ， 并 计算 适当 的 检验 统计 量 的 值 。 为 了 说 明 在 Pine Greek 上 侧 检验 中 这 一 
步骤 是 如 何 进 行 的 ,我们 从 讨论 总 体 比 率 假 设 检验 的 一 般 形 式 出 发 ， 说 明 如 何 计 算 检 验 统 计量 的 值 。P 是 总 体 参 
数 p 的 点 估计 量 ，z 的 抽样 分 布 是 计算 检验 统计 量 的 基础 。 

当 作 为 等 式 的 原 假设 为 真 时 ，z 的 期 望 值 等 于 假设 值 m， 即 BE(p) =po。P 的 标准 误差 为 


Ho,:p > po Ho:p po 


218 商务 与 经 济 统计 


用 


在 第 7 章 中 我 们 曾 说 过 ， 如果 三 大 5 并 且 w (1 -p) 三 5， 则 zp 的 抽样 分 布 近似 服从 正 态 分 布 >。 这 时 ， 在 实 
践 中 认为 下 式 








A A (9-3) 


服从 标准 正 态 幅 率 分 布 ， 其 中 o; = Vpo(1 -po)/n。 对 总 体 比 率 进行 假设 检验 时 ， 使 用 标准 正 态 随机 变量 z 为 检验 
统计 量 。 





现在 我 们 计算 Pine Greek 假设 检验 中 的 检验 统计 量 。 假 设 选取 400 名 高 尔 夫 球员 组 成 一 个 随机 样本 ， 其 中 100 
人 是 女性 。 数 据 文件 WomenCol 存在 本 书 配套 光盘 中 。 样 本 中 女性 高 尔 夫 球 员 的 比率 为 | 














- 100 
B= a00 = 0. 25 
根据 式 (9-4) ， 检 验 统计 量 的 值 为 
| 
tl = 0.2(1 -0.2) 0.02 
n 400 


由 于 Pine Greek 假设 检验 是 上 侧 检验 ， 因此 p- 值 是 z 大 于 或 者 等 于 2. 50 的 概率 ， 即 与 z= 宕 2. 50 相对 应 区 域 的 
面积 。 利 用 标准 正 态 概率 表 ， 得 到 z = 2.50 左 侧 的 面积 
为 0.9938。 从 而 ，Pine Greek 检验 的 p- 值 为 1.0000 - 
0.993 8 =0.0062。 图 9-7 给 出 了 p- 值 的 计算 过 程 。 

球场 管理 者 设 定 显著 性 水 平 a =0.05。p- 值 = 
0 0062 <0.05， 有 充分 的 统计 依据 在 0.05 的 显著 性 水 平 
下 拒绝 H,。 于 是 ,检验 给 出 统计 上 的 依据 支持 得 出 结论 ， 
认为 特定 的 促销 活动 能 增加 Pine Greek 女 高 尔 夫 球 运动 员 : 
的 比率 。 / 图 9-7 Pine Greek 假设 检验 中 p- 值 的 计算 

“也 可 以 采用 临界 值 法 作出 是 和 否 拒 绝 原 假设 的 决策 。 与 正 态 概率 分 布 上 侧面 积 0.05 相对 应 的 临界 值 为 z, 。 = 
1.645。 因 此 ， 利 用 临界 值 法 时 的 拒绝 法 则 为 : 如 果 z 宇 1. 645 则 拒绝 Ho。。 由 于 z=2. 50 >1. 645， 因 此 拒绝 Hu。 
发 现 ，,p- 值 法 和 临界 值 法 得 到 的 假设 检验 结论 是 相同 的 ,但 p- 值 法 提供 了 更 多 的 信息 。p- 值 
0. 006 2 表明 ， 对 任何 大 于 或 等 于 0.0062 的 显著 性 水 平 ， 原 假设 都 能 被 拒绝 。 


9. 5.1 小 结 


对 总 体 均值 进行 假设 检验 的 方法 和 对 总 体 比 率 进 行 假设 检验 的 方法 非常 相似 。 虽 然 我 们 仅仅 说 明了 如 何 对 总 
体 比率 的 上 侧 检验 进行 假设 检验 ， 但 是 类 似 的 方法 也 适用 于 下 侧 检验 和 双 侧 检验 。 表 9-4 给 出 了 对 总 体 比率 假设 
检验 的 一 个 小 结 。 我们 假定 zp5 并 且 n(1-p) 宇 5; 于 是 p 的 抽样 分 布 近似 服从 正 态 概率 分 布 。 







面积 = 0.993 8 


=Plz > 2.50) = 0.0062 


z 


es 








日 在 绝 大 多 数 对 总 体 比 率 进行 假设 检验 的 实际 应 用 中 ， 样 本 容量 是 足够 大 的 ， 从 而 可 以 利用 正 态 近似 。 己 


p 确 抽 样 分 布 是 离散 型 分 
布 , 5 取 每 个 什 的 概率 由 二 项 分 布 给 出 。 因 此 ， 小 样本 情形 下 ， 当 不 能 采用 正 态 近似 时 ， 假 设 检验 要 稍微 复 
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表 9-4 总 体 比率 假设 检验 的 小 结 





双 侧 检验 
| Ho :ppo Ho :pspo Ho :p=po 
假设 H, :p <po H,:p>po 于 :天 po 
Ey Pp-po Pp-Po 
检验 统计 量 Ma /po( 1 =po) 和 /pol 1 -po) fpo (l=po) 
n n n 
拒绝 法 则 : p- 值 法 如 果 p- 值 <a， 则 拒绝 Ho 如 果 记 - 值 <a， 则 拒绝 Ho 
皂 绝 法 则 : 虱 界 什 法 


如 果 z< -zo 或 者 2>7072 3 则 拒绝 Ho 


方法 
妆 36， 考虑 下 面 的 假设 检验 


Hu:p = 0.75 
Hixp < OB 
抽取 300 项 组 成 一 个 样本 ， 取 a =0.05; 对 下 面 的 
每 种 样本 结果 ,计算 p- 值 并 陈述 你 的 结论 。 
a. p=0.68 b: p=0.72 
c. p=0.70 d, p30:77 


应 用 
六 38.《 消 费 者 报告 》 的 一 项 研究 显示 ，、， 有 6% 的 超市 购 


物 者 认为 超市 自 有 品牌 与 国家 和 名牌 一 样 好 。 某 国 
家 名 牌 番茄 普 的 制造 商 为 了 调查 该 研究 结果 对 其 
产品 是 否 适 用 ， 抽 取 超 市 购物 者 组 成 一 个 样本 ， 并 

询问 样本 中 的 购物 者 是 否认 为 : 超市 自 有 品牌 的 

番茄 普 与 国家 名 上牌 的 番茄 葡 一 样 好 。 

a. 提出 假设 ， 用 于 确定 超市 购物 者 中 认为 超市 自 
有 品牌 子 与 国家 名 牌 的 番茄 普 一 样 好 的 比率 是 
否 与 64W% 有 差异 。 

b. 如 果 在 由 100 名 超市 购物 者 组 成 的 样本 中 ， 有 
52 人 认为 超市 自 有 吻 牌 与 国家 名 上牌 的 番茄 普 一 
样 好 ， 那 么 检验 的 P- 值 是 多 少 ? 

c. 在 a=0.05 时 ， 你 能 得 出 怎样 的 结论 ? 

d. 国家 名 牌 番 茄 普 的 制造 商 对 这 个 结论 满意 吗 ? 
请 作出 解释 。 

. 2008 年 ， 有 46 和 的 企业 雇主 会 向 员工 赠送 节日 礼 

物 。 在 2009 年 的 一 项 调查 中 ， 有 35% 的 雇主 打算 

向 员工 赠送 节日 礼物 (Radio WEZV,， Myrtle 

Beach，SC，2009 年 11 月 11 日 )。 假 定 由 60 名 座 

主 组 成 一 个 样本 用 于 调查 。 

a. 在 2009 年 的 调查 中 有 多 少 名 雇主 打算 向 员工 赠 





42. 





送 节日 礼物 ? 

. 假定 样本 中 的 雇主 确实 会 像 他 们 最 初 承诺 的 那 
样 向 员工 赠送 节日 礼物 。 请 用 假设 检验 确定 与 
2008 年 相 比 是 否 麻 主 向 员工 赠送 节日 礼物 的 比 
率 有 所 降低 ， 并 计算 p- 值 。 

c、 取 显著 性 水 平 w=0.05， 你 能 够 得 出 雇主 赠送 节 
日 礼物 的 比率 有 所 下 降 的 结论 吗 ? 要 想得到 这 
样 的 结论 ， 至 少 应 该 选取 多 大 的 显著 性 水 平 ? 

据 内 华 达 大 学 物流 管理 中 心 报道 ， 在 美国 售 出 的 

商品 中 有 6% 会 遭 到 退货 (《 商 业 周刊 》，2007 年 1 

月 15 日 )。 一 月 ， 休 斯 敦 一 家 百货 公司 抽取 80 件 

售 出 商品 组 成 样本 ， 发 现 其 中 12 件 遭 到 退货 。 

a. 在 休斯敦 百货 公司 售 出 商品 中 ， 求 遭 到 退货 的 
总 体 比 率 的 点 估计 。 

b. 建立 休斯敦 百货 公司 售 出 商品 的 退货 比率 的 
95% 置信 区 间 。 

c. 休斯敦 百货 公司 的 退货 比率 与 全 国 的 退货 比率 存 
在 显著 差异 吗 ? 为 你 的 答案 提供 统计 上 的 支持 。 


[= 


.《 商 业 赔 刊 》 在 封面 故事 中 公布 了 关于 美国 人 有 睡 眼 


习惯 的 信息 ( 《商业 周刊 》，2004 年 1 月 26 日 )。 

作者 强调 ,， 有 睡眠 不 足 导 致 了 包括 高 速 路 车 祸 死亡 

在 内 的 许多 问题 。 成 人 驾驶 员 中 有 51% 的 人 承认 

在 驾驶 中 感觉 困倦 。 莱 研 究 者 假设 这 一 问题 在 夜 

班 驾 驶 员 中 尤为 严重 。 

a, 提出 假设 ， 用 于 确定 是 否 在 由 夜班 驾驶 员 组 成 
的 总 体 中 有 超过 51% 的 人 在 驾驶 时 感到 困倦 。 

b. 由 400 名 夜班 驾驶 员 组 成 一 个 样本 ， 数 据 存 放 
在 名 为 Drowsy 的 文件 中 。 请 识别 出 那些 承认 自 
己 在 驾驶 中 感到 困倦 的 人 ， 并 计算 样本 比 
率 和 p- 值 。 

c. 在 a=0.01 的 显著 性 水 平 下 ， 你 的 结论 是 什么 ? 
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9.6 假设 检验 与 决策 


在 本 章 的 以 前 各 节 中 ， 我 们 介绍 的 假设 检验 在 应 用 中 被 称 之 为 显著 性 检验 。 在 提出 原 假设 和 备 择 假设 之 后 ， 
我 们 选取 样本 ， 计 算 检验 统计 量 的 值 和 相应 的 p 值 。 我 们 将 p 值 与 控制 第 一 类 错误 概率 的 w 相 比 ， 其 中 被 称 作 
检验 的 显著 性 水 平 。 如 果 p 值 <a， 则 我 们 作出 结论 “拒绝 机”， 并 称 结果 是 显著 的 。 否 则 ， 我 们 将 作出 “不 能 
拒绝 Hu” 的 结论 。 在 显著 性 检验 中 ， 我 们 控制 了 发 生 第 一 类 错误 的 概率 ， 但 没有 控制 发 生 第 二 类 错误 的 概率 。 因 
此 ， 我 们 给 出 的 结论 是 “不 能 拒绝 Hu”， 而 不 是 “接受 思 "。 因 为 ， 后 者 会 使 我 们 在 了 苇 为 假 时 接收 现 ， 从 而 承 
担 发 生 第 二 类 错误 的 风险 。“ 不 能 拒绝 H,” 的 结论 ， 从 统计 证 据 上 讲 是 非 结论 性 的 ， 这 通常 意味 着 将 决策 或 行动 
推迟 ， 待 经 过 更 深入 的 研究 和 检验 之 后 再 作 决 策 。 

然而 ， 如 果 假 设 检验 的 目的 是 : 当 H, 为 真 时 ， 作 出 一 种 决策 ; 当 H, 为 真 时 ， 作 出 另 一 种 决策 。 那 么 ， 不 论 
是 作出 “拒绝 了” 还 是 “不 能 拒绝 H,” 的 结论 ,决策 者 都 想 要 或 者 在 某 些 情形 下 不 得 不 作出 决策 。 这 时 ， 统 计 
学 家 往往 建议 控制 发 生 第 二 类 错误 的 概率 。 当 同时 控制 发 生 第 一 类 错误 和 第 二 类 错误 的 可 能 性 时 ， 假 设 检验 的 结 
论 要 么 是 “接受 H,” 或 者 “拒绝 H,”。 对 第 一 种 情形 ， 结 论 认为 H, 为 真 ; 而 在 第 二 种 情形 ， 结 论 认为 ,为 真 。 
在 任何 一 种 情况 下 ， 都 必须 作出 决策 并 采取 相应 的 措施 。 

货物 接收 的 抽样 问题 ， 就 是 假设 检验 在 决策 中 一 个 很 好 的 应 用 。 第 20 章 中 将 对 这 一 问题 展开 更 加 深入 的 讨 
论 。 例 如 ， 对 供应 商 的 一 批 电池 ， 某 名 质量 控制 管理 人 员 必 须 决定 是 接受 这 批 货物 还 是 因 其 质量 差 而 将 货物 退还 
供应 商 。 假 定 ， 设 计 规 格 中 要 求 供应 商 电池 的 平均 使 用 寿命 至 少 为 120 个 小 时 。 为 了 评估 这 批 货物 的 质量 ,我 们 
选取 36 节 电 池 组 成 样本 进行 检验 ， 根 据 样 本 来 决定 是 接受 这 批 货 物 还 是 因 其 质量 差 而 将 这 批 货物 退还 供应 商 。 
令 人 代表 这 批 电池 使 用 寿命 的 均值 (单位 : 小 时 ) ， 对 总 体 均值 建立 如 下 形式 的 原 假设 和 备 择 假设 。 

H, :1 = 120 
H :wm < 120 

如 果 拒 绝 H,， 则 作出 备 择 假 设 为 真 的 结论 。 这 一 结论 表明 ， 将 这 批 货物 退还 给 供应 商 是 明智 之 举 。 但 是 ， 如 果 不 
能 拒绝 H,， 决策 者 仍 需 确定 采取 某 种 措施 。 所 以 ， 当 没有 直接 得 出 “H, 为 真 ” 的 结论 ， 而 仅仅 是 “不 能 拒绝 
H,” 时 ; 决策 者 将 认为 这 批 货物 的 质量 符合 标准 而 决定 接收 这 批 货物 。 

在 这 种 决策 中 ,我 们 建议 将 假设 检验 过 程 扩展 ， 对 发 生 第 二 类 错误 的 概率 予以 控制 。 由 于 当 不 能 拒绝 Hu 时， 
必须 作出 决策 并 采取 措施 ， 所 以 有 关 发 生 第 二 类 错误 的 概率 的 信息 对 我 们 很 有 帮助 。 在 第 9.7 节 和 第 9.8 节 中 ， 
我 们 将 说 明 如 何 计算 发 生 第 二 类 错误 的 概率 ， 如 何 调整 样本 容量 帮助 控制 发 生 第 二 类 错误 的 概率 。 


9.7 计算 第 二 类 错误 的 概率 


在 本 节 中 ,我 们 说 明 在 总 体 均 值 的 假设 检验 中 如 何 计算 发 生 第 二 类 错误 的 概率 。 以 第 9.6 节 中 所 描述 的 货物 
接收 问题 为 例 ， 我 们 对 该 过 程 进行 演示 。 电 池 使 用 寿命 〈 单 位 : 小 时 ) 均值 的 原 假设 和 备 择 假设 分 别 为 H, :x 二 
120 和 H, :jp<120。 如 果 拒 绝 Hu， 则 因 电 池 使 用 寿命 的 均值 小 于 规格 所 要 求 的 120 个 小 时 ， 而 决定 将 这 批 货物 退 
回 供 应 商 。 如 果 不 能 拒绝 Hu ， 那 么 就 决定 接收 这 批 货 物 。 

假定 假设 检验 时 所 采用 的 显著 性 水 平 a=0.05， 在 o 已 知 的 情形 下 ， 检 验 统计 量 为 

XC— x — 120 
“和 o/ Vn CA Vn 
根据 临界 值 方法 以 及 zu =1 645， 下 侧 检验 的 拒绝 规则 为 
如 果 z 夸 一 1.645, 则 碟 绝 H。 
假定 选取 36 节 电 池 组 成 一 个 样本 ， 根 据 已 有 的 检验 可 以 假定 总 体 标准 差 已 知 ， 为 o =12 个 小 时 。 拒 绝 规 则 表明 ， 当 


:0 2 
127 v36 





艺 二 


拒绝 :Ho 上 式 中 关于 *x 求 解 可 知 ， 当 
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拒绝 H,。 这 意味 着 ， 当 xz >116.71 时 ,我 们 将 作出 接收 这 批 货物 的 决策 。 利 用 这 些 信 息 ， 我 们 可 以 计算 发 生 第 二 
类 错误 相 的 概率 。 首 先 ， 当 货物 均值 的 真 值 小 于 120 小 时 而 我 们 却 作 出 接受 Hu 汉 关 120 的 决定 时 ， 我 们 就 犯 了 第 
二 类 错误 。 因 而 ， 为 了 计算 发 生 第 二 类 错误 的 概率 ， 我 们 必须 选择 一 个 小 于 120 小 时 的 值 。 例如， 假定 电池 寿 
命 的 均值 凡 =112 小 时 ， 该 批 货物 的 质量 差 。 那 么 ,在 .=112 确实 是 真 但 我 们 却 接 受 了 Ho:;p 二 120， 因 此 发 生 第 
二 类 错误 的 概率 是 多 少 呢 ? 它 应 该 是 当 j=112 时 样本 均值 * 大 于 116. 71 的 概率 。 

图 9-8 给 出 了 当 均 值 凡 = 112 时 x 的 抽样 分 布 ， 其 上 侧 阴 影 
部 分 的 面积 为 x* > 116.71 的 概率 。 根 据 标准 正 态 分 布 ， 当 x = 
116.71 时 

/el 
oa/ Nn 127 v36 
由 标准 正 态 概率 表 可 知 ， 当 z=2.36 时 其 上 侧面 积 是 1.0000 - 
0.9909=0.0091,，0.009 1 是 当 y =112 时 发 生 第 二 类 错误 的 概 
率 。 令 BB 表 示 发 生 第 二 类 错误 的 概率 ， 可 见 当 j=112 时 , B= 
0.009 1。 从 而 ,我 们 得 出 结论 : 如 果 总 体 均 值 为 112 小 时 ， 则 
发 生 第 二 类 错误 的 概率 仅 为 0. 009 1。 

对 其 他 小 于 120 的 gy 值 ， 我 们 可 以 重复 该 计算 过 程 ， 求 出 
每 一 个 义 值 下 发 生 第 二 类 错误 的 概率 。 例 如 ,假定 货物 中 电池 使 用 寿命 的 均值 多 = 115 小 时 。 由 于 当 x > 116.71 
时 ， 我 们 接受 H,， 所 以 上 =115 时 z 值 为 

SEE TG TL ~ 115 
, o/ Nn 12/ V36 

查 标准 正 态 概率 表 可 得 ， 当 z=0. 86 时 ， 标 准 正 态 分 布 上 侧面 积 为 1.000.0 -0.8051=0.1949。 因 此 ， 当 均值 
的 真 值 =115 时 ,发生 第 二 类 错误 的 概率 B=0. 1949。 

表 9-5 列 出 了 当 jw 取 某 些 小 于 120 的 值 时 发 生 第 二 类 错误 的 概率 。 我 们 注意 到 : 随 着 j4 逐渐 增加 到 120， 发 生 
第 二 类 错误 的 概率 也 随 之 增 大 ， 达 到 上 上 限 0.95。 相 反 ， 随 着 值 比 120 越 来 越 小 ， 发 生 第 二 类 错误 的 概率 也 和 逐渐 
减 小 。 不 出 所 料 ， 当 总 体 均 值 的 真 值 在 原 假 设 的 值 y=120 附近 时 ， 发 生 第 二 类 错误 的 概率 很 大 ， 但 是 当 总 体 均 
值 的 真 值 在 远离 原 假设 的 值 j. =120 的 下 方 时 ， 则 发 生 第 二 类 错误 的 概率 很 小 。” 

表 9-5 货物 接收 假设 检验 问题 中 发 生 第 二 类 错误 的 概率 





图 9-8 当 几 =112 时 发 生 第 二 类 错误 的 概率 


= 0. 86 


品德 Se 第 二 类 错误 的 概率 6 功效 (1 -有 
112 2.36 0. 009 1 0. 990 9 
114 1. 36 0.086 9 0.913 1 
115 0. 86 0. 1949 0. 805 1 
116. 71] 0.00 0. 5000 0. 500 0 
117 -0.15 0. 5596 0. 440 4 
118 -0.65 0.7422 0.257 8 
119. 999 -1.645 0.9500 0.0500 


当 Ho 为 假 时 ， 作 出 拒绝 HH 的 正确 结论 的 概率 称 作 检验 的 功效 (power) 。 对 于 给 定 的 岂 值 ， 功 效 为 1-B， 即 
作出 拒绝 原 假设 正确 结论 的 概率 等 于 1 减 去 发 生 第 二 类 错误 的 概率 。 功 效 的 值 列 示 在 表 9-5 中 ,根据 这 些 值 绘制 
与 每 一 个 值 相 对 应 的 功效 ， 所 得 曲线 称 为 功效 曲线 (power curve) ， 如 图 9-9 所 示 。 注 意 ， 功 效 曲线 渐 近 于 原 假 


名 “正如 表 9-5 所 示 ， 第 二 类 错误 的 概率 依赖 于 总 体 均值 4 的 值 。 对 jw 附近 的 入 ， 发 生 第 二 类 错误 的 概率 很 高 。 
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设 为 假 时 的 到 值 。 对 任意 一 个 人 值 ， 功 效 曲 线 的 高 度 代表 了 当 了 HH, 为 假 时 作出 拒绝 Bu 正确 结论 的 概率 。” 
总 之 ， 对 总 体 均 值 进行 假设 检验 时 ， 可 以 按照 如 下 所 给 的 流程 逐步 计算 得 到 发 生 第 二 类 错误 的 概率 。 
1. 确立 原 假设 和 备 择 假 设 。 
2. 在 显著 性 水 平 w 下 ， 根据 临界 值 方 法 确定 临界 值 100 

并 建立 检验 的 拒绝 规则 。 0.80 
3. 利用 (2) 中 所 得 的 拒绝 规则 ， 求 解 与 检验 统计 这 0.60 

量 的 临界 值 相 对 应 的 样本 均值 的 取 值 。 
4. 利用 步骤 (3) 中 的 结果 ， 得 到 接受 Ho 时 所 对 应 湛 

的 样本 均值 的 值 ， 这 些 值 构成 了 检验 的 接受 域 。 Oe 
5. 对 于 满足 备 择 假设 的 到 值 ， 利 用 x 的 抽样 分 布 和 步 YD TE i 天 

又 (4) 中 的 接受 域 ， 计 算 样本 均值 落 在 接受 域 的 概率 。 Ho False 一 一 一 | 

这 一 概率 值 即 为 在 选 定 的 及 值 处 发 生 第 二 类 错误 的 概率 。 图 9-9 ”货物 接收 很 设 检验 问题 中 的 功效 曲线 


0.40 


一 一 -一 一 一 -一 一 - 瑟 一 一 一 一 -一 一 一 一 一 一 








方法 a. 你 如 何 解释 该 问题 中 的 第 二 类 错误 ? 它 对 公司 
六 46. 考虑 如 下 假设 检验 。 有 什么 影响 ? 
Hu 六 > 10 b， 当 实际 所 用 时 间 的 均值 j=17 分 钟 时 ， 发 生 第 
Hi < 10 二 类 错误 的 概率 是 多 少 ? 
ee c. 当 实 际 所 用 时 间 的 均值 几 =18 分 钟 时 ， 发 生 第 
容量 为 120 总 体 标 ; =5, 
Pn ， 假 定 已 知 总 体 标准 差 g 取 一 类 樟 江 交流 计 是- 少 坟 1 
Q =0. 05., 


d. 各 出 该 检验 中 功效 曲线 的 一 般 形状 。 


a 如果 总 体 均 值 为 9， 则 根据 样本 均值 我 们 作出 不 
50,， Adult 杂志 对 其 订阅 者 的 年 值 作 出 如 下 
能 拒绝 H 的 结论 的 概率 为 多 类? ee 
b. 如 果实 际 的 总 体 均 值 为 9， 而 我 们 却 得 出 H,: Hi = 28 
人 宇 10 为 真 的 结论 ， 则 这 时 会 发 生 哪 一 类 错误 ? 和 起 


c. 如 果实 际 的 总 体 均值 为 8， 则 发 生 第 二 类 错误 的 EE 


概率 为 多 少 ? b. 假设 已 知 总 体 标 准 差 o =6 岁 ， 样 本 容量 为 
应 用 100, 取 a=0.05， 则 当 妈 值 分 别 等 于 26，27， 
48. Fowle 市 场 研究 有 限 公司 假定 电话 调查 可 在 15 分 钟 29 和 30 时， 接受 HH 的 概率 为 多 大 ? 
以 内 结束 ， 并 据 此 向 顾客 收费 。 如 果 调 查 所 需 时 间 c.' 当 凡 =26 时 ， 功效 为 多 少 ? 这 说 明 什 么 ? 
超过 该 值 ， 则 需要 加 收 额外 费用 。 由 35 个 调查 电话 52. 参见 习题 48。 假 定 公司 选取 50 次 调查 组 成 一 个 样 
组 成 一 个 祥 本 ， 总 体 标准 差 为 4 分钟， 利用 样本 均 本 ,重复 (b) 和 (c)。 随 着 样本 容量 的 增加 ， 你 
值 检验 原 假 设 H, ,上 <1$。 取 显著 性 水 平 为 0.01。 发 现 发 生 第 二 类 错误 的 概率 将 如 何 变化 ? 


9. 8 对 总 体 均值 进行 假设 检验 时 样本 容量 的 确定 
假定 要 对 总 体 均值 进行 假设 检验 ， 检 验 中 使 用 者 事先 指定 显著 性 水 平 ， 以 确定 检验 中 发 生 第 一 类 错误 的 概 
率 。 通 过 控制 样本 容量 ,使 用 者 也 可 以 控制 发 生 第 二 类 错误 的 概率 。 下 面 ， 我 们 说 明 在 总 体 均值 的 下 侧 检 验 中 如 
何 确定 样本 容量 。 
Ho:n > po 
Hy < 丰 


加 有 时 ， 我 们 利用 另 一 种 称 之 为 工作 特征 曲线 的 图 形 来 给 出 发 生 第 二 类 错误 的 概率 的 信息 。 工 作 特 征 曲线 给 出 了 接受 Ho 的 概率 以 及 
当 原 假 设 为 假 时 久 值 所 对 应 的 B 值 。 由 该 图 可 以 直接 得 出 发 生 第 二 类 错误 的 概率 。 
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半 部 分 是 当 本 H, 为 真 并 且 凡 =jw 时 x 的 抽样 分 布 。 对 于 下 侧 检验 ， 检 验 统计 量 的 临界 值 记 做 - z。。 
上 半 部 分 中 垂 线 与 x 相对 应 。 注 意 ， 如 果 当 *<c 时 拒绝 Hu， 则 发 生 第 一 类 错误 的 概率 为 w。 以 z, 表 示 标 准 正 
态 分 布 上 侧面 积 为 a 时 所 对 应 的 z 值 ， 可 利用 如 下 公式 计算 c 





c= jo- (9-5) 
n 


图 9-10 的 下 半 部 分 为 当 备 择 假设 H, 为 真 并 且 j =j。<jw 时 % 的 抽样 分 布 。 阴影 区 域 的 面积 及 恰好 是 当 和 >c 时 
却 接 受 了 原 假设 时 决策 者 发 生 第 二 类 错误 的 概率 。 以 ?表示 标准 正 态 分 布 上 侧面 积 为 B 时 所 对 应 的 z 值 ， 可 利用 
如 下 公式 计算 c。 
(9-6) 





i 


图 9-10 给 定 第 一 类 错误 水 平 (a) 和 第 二 类 错误 水 平 (8)， 样 本 容量 的 确定 


由 于 我 们 想 要 选取 一 个 。 值 使 得 当 我 们 拒绝 Hu 接受 ,时 ， 发 生 第 一 类 错误 的 概率 等 于 选取 的 值 a， 发 生 第 二 
类 错误 的 概率 等 于 选取 的 值 5。 因此 , 式 (9-5) 和 (9-6) 所 给 出 的 。 值 是 相等 的 。 于 是 ， 如 下 表达 式 一 定 成 立 。 


Ao 一 和 一 = 本 二 
“5 
为 了 确定 所 需要 的 样本 上 容量， 我 们 首先 用 如 下 方式 求解 Vn。 
Ho, Hs = 二 + 入 
入 + ss) 0 
Ho ~ Hs 
和 


二 《ze + 29)0 
(po 一 Ha) 
等 式 两 边 平方 ， 即 得 到 如 下 公式 用 于 确定 总 体 均值 单 侧 假设 检验 的 样本 容量 。 






224 商务 与 经 济 统计 


虽然 式 (9-7) 的 逻辑 是 用 于 如 图 9-10 所 示 的 假设 检验 的 ， 但 是 对 其 他 形式 总 体 均值 的 单 侧 检 验 也 成 立 。 在 
总 体 均值 的 双 侧 假设 检验 中 ， 只 需 在 式 (9-7) 中 以 z, 代 和 兰 z, 即 可 。 

我 们 仍 采 用 第 9.6 节 和 第 9.7 节 的 货物 接收 例子 。 设 计 规 格 要 求 电池 使 用 寿命 的 均值 至 少 为 120 个 小 时 。 如 
果 Hu :pp 三 120 被 拒绝 ， 则 该 批 货物 被 拒 收 。 我 们 假定 质量 控制 管理 人 员 要 求 第 一 类 错误 和 第 二 类 错误 的 可 接受 概 
率 达 到 如 下 要 求 。 

关于 第 一 类 错误 的 要 求 : 如 果 货 物 中 电池 寿命 的 均值 为 =120， 那 么 甘愿 冒 a =0, 05 的 风险 概率 拒绝 这 批 货物 。 

关于 第 二 类 错误 的 要 求 : 如 果 货 物 中 电池 寿命 的 均值 比 规格 要 求 少 3 小 时 ( 即 久 =115), 那么 甘愿 冒 .B = 
0. 10 的 风险 概率 接受 这 批 货物 。 

如 上 要 求 是 基于 管理 者 的 判断 得 到 的 。 不 同 的 人 可 能 会 对 此 概率 作出 不 同 的 限制 。 但 是 ， 在 确定 样本 容量 之 
前 ， 必 须 明 确 允 许 发 生 两 类 错误 概率 的 大 小 。 

在 例子 中 , w =0.05，B =0. 10。 利 用 标准 正 态 概率 分 布 ， 有 ai =1.645， zo =1.28。 从 关于 错误 概率 的 要 
求 中 ,我们 已 知 jo=120, ,=115。 最 后 ,假定 已 知 总 体 标准 差 o =12。 利 用 式 (9-7) ， 在 货物 接收 的 例子 中 ， 
我 们 建议 使 用 的 样本 容量 为 
CS 28)? x 


= "49.3 
(120 — 1153)° 


有 三 


舍 信 后， 建议 选取 的 样本 容量 为 50。 

当 n=50 时 ， 由 于 发 生 第 一 类 错误 和 发 生 第 二 类 错误 的 概率 已 经 控制 在 可 接受 的 水 平 内 ， 所 以 在 假设 检验 
中 ， 质 量 控制 管理 者 要 在 拒绝 H, 和 接受 Hu 之 间 中 作出 判断 。 在 发 生 第 一 类 错误 和 第 二 类 错误 的 概率 在 已 知 允 许 
范围 内 时 ， 进 行 相 关 推 断 。 

我 们 可 以 观察 到 a、B8 和 样本 容量 n 之 间 的 如 下 三 种 关系 : 

1. 当 三 者 中 有 二 者 已 知 时 ， 即 可 计算 得 到 第 三 者 。 

2 对 于 给 定 的 显著 性 水 平 wa， 增 大 样本 容量 将 会 减少 B。 

3. 对 于 给 定 的 样本 容量 , 减 小 a 将 会 使 8 增 大 ， 相反 增 大 a 将 会 使 B 减 小 。 

当 未 对 第 二 类 错误 的 概率 加 以 控制 的 时 候 ， 我 们 应 该 牢记 第 三 条 ， 它 说 明 不 能 毫 无 必要 地 选择 太 小 的 显著 性 
水 平 w。 对 于 给 定 的 样本 容量 ， 选 择 较 小 的 显著 性 水 平 意味 着 将 使 发 生 第 二 类 错误 的 风险 增 大 。 缺 乏 经 验 的 使 用 
者 通常 认为 假设 检验 中 ，a 的 取 值 越 小 越 好 。 当 我 们 只 关心 第 一 类 轿 误 时 ， 确 实 如 此 。 但 不 利 的 是 ， 较 小 的 a 值 


将 增 大 发 生 第 二 类 错误 的 概率 。 
0 


责 人 要 求 当 实际 重量 少 了 1 盘 司 ( 即 作 =2.937 5 
态 ) 时 Hilltop 却 不 会 遭 到 投诉 的 概率 为 0.10， 则 
应 采用 多 大 的 样本 容量 ? 









方法 
六 54. 考虑 如 下 假设 检验 。 


Ho ;内 之 10 

H.: < 10 58，Young Adult 杂志 对 其 订阅 者 的 年 龄 的 均值 建立 如 
样本 容量 为 120， 总 体 标准 差 为 5， 取 a =0.05。 下 假设 。 
如 果实 际 上 总 体 均 值 为 9， 发 生 第 二 类 错误 的 概率 Ho:p = 28 
为 0.2912。 假定 当 总 体 的 实际 均值 为 9 时， 研究 H,:n # 28 


者 想 要 将 发 生 第 二 类 错误 的 概率 减少 到 0.10， 则 
应 该 选取 多 大 的 样本 容量 ? 


应 用 


56. 在 Hilltop 咖啡 研究 中 ( 见 第 9.3 节 )， 假 定 项 目 负 
本 





— 


定 是 否 拒绝 关于 总 体 参 数 的 说 法 。 假 设 是 关于 总 体 参 


假设 检验 是 一 种 统计 方法 ， 它 利用 样本 数据 来 确 


数 的 两 种 不 同 的 说 法 ,其 中 一 个 称 作 原 假 设 (H,)， 


如 果 检 验 中 管理 者 允许 发 生 第 二 类 错误 的 概率 为 
0. 15， 而 真实 年 龄 的 均值 为 29 岁 ， 则 应 该 选取 多 
大 的 样本 容量 ? 假定 w =6， 取 显著 性 水 平 
为 0.05。 








另 一 个 称 作 各 择 假 设 〈 了 。) 。 在 第 9.1 节 ， 针 对 实际 应 


用 中 最 常 发 生 的 情况 给 出 了 建立 假设 的 规则 。 

当 根 据 历史 数据 或 者 其 他 信息 可 以 假定 总 体 标 准 
差 已 知 时 ， 总 体 均 值 的 假设 检验 过 程 以 正 态 分 布 为 依 
据 。 当 er 未 短 时 ， 用 和 料 本 标准 差 s 估 计 wr， 假 设 检 验 过 
程 以 1 分 布 为 依据 。 在 这 两 种 情形 下 ,假设 检验 结果 
的 质量 依赖 于 总 体 分 布 的 形式 以 及 样本 容量 。 如 果 总 
体 服从 正 态 分 布 ， 则 即使 在 小 样本 的 情形 下 ， 这 两 种 
假设 检验 方法 也 是 适用 的 。 人 但是， 如果 总 体 不 服从 正 
态 分 布 ， 则 需要 较 大 的 样本 容量 。 第 9.3 节 和 第 9.4 
节 给 出 了 有 关 样 本 容量 的 一 般 建 议 。 在 对 总 体 比 率 进 
行 假设 检验 时 ,假设 检验 中 利用 的 检验 统计 量 以 标准 
正 态 分 布 为 依据 。 

在 所 有 上 述 情 形 下 ， 都 可 以 利用 检验 统计 量 的 值 
来 计算 检验 的 产值 。P- 值 用 于 确定 原 假 设 是 否 被 拒绝 


的 概率 ; 当 了 -= 值 小 于 或 者 等 于 显著 性 水 平 w 时 ， 我 们 





null hypothesis 原 假 设 在 假设 检验 的 程序 中 ， 尝 试 
性 地 假定 为 真 的 假设 。 

alternative hypothesis 备 择 假设 如果 原 假 设 被 拒绝 
时 ， 被 认为 是 真 的 假设 。 

type ll error 第 二 类 错误 “ 当 BHu 为 假 时 却 接受 了 H 时 
所 犯 的 错误 。 

type 1 error 第 一 类 错误 ” 当 Bu 为 真 时 却 碟 绝 了 Ho 时 
所 犯 的 错误 。 

level of significance 显著 性 水 平 当 原 假设 以 等 式 形 
式 为 真 成 立时 ， 发 生 第 一 类 错误 的 概率 。 

one-tailed test 单 侧 检验 ”假设 检验 的 一 种 ， 当 检验 
统计 量 的 值 落 在 抽样 分 布 的 某 一 侧 时 ， 拒 绝 原 假设 。 

test statistic “检验 统计 量 ”一 种 统计 量 ， 它 的 值 用 于 
确定 是 否 拒 绝 原 假设 。 

P-value 户 值 p- 值 是 一 个 概率 值 ， 当 根据 样本 作出 
拒绝 原 假设 的 结论 时 ，P- 值 是 对 证 据 充 分 程度 的 一 








(52 


ay Mn 
总 体 均 值 假设 检验 的 检验 统计 量 ; og 未知 
_ 一 
a (9-2) 
总 体 比率 假设 检验 的 检验 统计 量 
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拒绝 原 假 设 。 

也 可 以 将 检验 统计 量 的 值 与 临界 值 相 比 较 后 得 出 
假设 检验 的 结论 。 对 于 下 侧 检验 ， 如 果 检 验 统 计量 的 
值 水 于 或 者 等 于 临界 值 ， 则 拒绝 原 假设 。 对 于 上 侧 检 
验 ， 如 果 检 验 统计 量 的 值 大 于 或 者 等 于 临界 信 ， 则 拒 
绝 原 假 设 。 双 侧 检验 包括 两 个 临界 值 ， 一 个 位 于 抽样 
分 布 的 上 侧 ， 一 个 位 于 抽样 分 布 的 十 侧 。 在 这 种 情形 
下 ， 当 检验 统计 量 的 值 小 于 或 等 于 下 侧 临 界 值 或 者 检 
验 统 计量 的 值 大 于 或 等 于 上 侧 临 界 值 时 ， 则 碟 绝 原 
假设 。 

作为 很 设 检 验方 法 的 扩展 ,本章 给 出 了 关于 第 二 
类 错误 的 分 析 。 在 第 9.7 节 s 吕 们 介绍 了 如 何 计 算 发 
生 第 二 类 错误 的 概率 。 在 第 9.8 节 ， 描 述 了 当 同 时 控 
制 发 生 第 一 类 错误 和 第 二 类 错误 的 概率 时 如 何 确 定 样 


本 容量 。 


种 度量 。 产值 越 小 ， 册 越 有 理由 拒 绝 原 假设 Hg。 对 

于 下 侧 检 验 ,P 值 是 检验 统计 量 小 于 或 者 等 于 样本 

所 给 出 的 检验 统计 量 的 值 的 概率 。 对 于 上 侧 检 验 ， 
天 值 是 检验 统计 重大 于 或 者 等 于 样本 所 给 出 的 检验 
统计 量 的 信和 的 概率 。 对 于 双 侧 检验 ，p- 值 是 检验 统 
计量 大 于 或 等 于 检验 统计 量 的 绝对 值 的 概率 。 

critical Value 临界 值 ” 与 检验 统计 量 相 比 ， 用 于 确定 
是 否 拒绝 了 ,的 值 。 

two-tailed test 双 侧 检验 ”假设 检验 的 一 种 ， 当 检验 
统计 量 的 值 落 在 抽样 分 布 两 侧 的 任 一 侧 时 ， 拒绝 原 
假设 。 

power 功效 当 芋 ,为 假 时 作出 拒绝 囊 这 一 正确 结论 
的 概率 。 

power curve 功效 曲线 ”对 所 有 不 满足 原 假 设 的 总 体 

参数 值 ， 功 效 曲 线 绘 制 出 了 拒绝 H, 的 概率 。 功 效 曲 





线 给 出 了 正确 地 碟 绝 原 假 设 的 概率 。 
多 三 扣 下 这 二 (9-4) 
Poll = Po 
及 
总 体 均 值 单 侧 假设 检验 的 的 样本 容量 
站 (9-7) 
(J = 


用 za 代 著 z。， 即 为 双 侧 检验 的 公式 。 


补充 练习 a a 
60. 某 种 产品 的 生产 线 上 ， 产 品 充 入 重量 的 均值 为 16 


02. 


66. 


商务 与 经 济 统计 


226 





次 司 。 过 多 或 过 少 都 会 导致 严重 的 后 果 ， 并 且 一 
经 发 现 就 要 求 操 作者 立即 关闭 生产 线 对 填充 机 进 
行 重 新 调试 。 根 据 历 史 数 据 ， 假 设 总 体 标 准 差 rr = 

0.8 郊 司 。 质 量 控制 监督 员 每 小 时 检验 30 件 产 品 ， 

并 同时 确定 该 生产 线 是 否 需 要 停产 进行 调整 。 取 

显著 性 水 平 &=0.05。 

a. 提出 用 于 质量 控制 的 假设 检验 。 

b. 如 果 样 本 均值 %*=16.32 准 司 ， 则 p- 值 是 多 少 ? 
你 建议 采取 什么 措施 ? 

c. 如 果 样 本 均值 *=15.82 准 司 ， 则 p- 值 是 多 少 ? 
你 建议 采取 什么 措施 ? 

d. 利用 临界 值 法 ， 求 上 述 假设 检验 过 程 中 的 拒绝 
规则 。 重复 (a) 和 (b) 中 的 问题 。 你 得 到 了 
相同 的 结论 吗 ? 

Playbill 是 一 家 全 国 发 行 的 杂志 ， 它 面向 那些 专心 

于 音乐 片 和 其 他 戏剧 作品 的 发 烧 友 。 在 Playbill 的 

读者 总 体 中 ， 家 庭 收 入 的 年 均值 是 119 155 美元 

(Playbill，2006 年 1 月 )。 假 设 总 体 标准 差 0 = 

20”700 美 元 。 昌 人 金山 市 民 小 组 断言 ， 海 湾 地 区 剧场 

戏迷 观众 的 均值 会 更 高 。 由 海湾 区 60 名 剧场 观众 

组 成 的 一 个 样本 显示 ， 家 庭 收 六 的 样本 均值 为 

126 100 美 元 。 

a, 提出 检验 的 假设 ;用 来 确定 样本 数据 是 否 支 持 
作出 结论 认为 海湾 地 区 戏剧 观众 的 家 庭 收 入 的 
均值 比 全 体 Playbill 读者 的 均值 要 高 。 

b， 基于 海湾 地 区 60 名 剧场 观众 组 成 的 一 个 样本 ， 
求 p- 值 是 多 少 ? 

c. 取 显 著 性 水 平 Qa=0.01， 你 的 结论 是 什么 ? 


. 美国 国家 健康 统计 中 心 发 布 的 数据 显示 ，2006 年 


女性 生育 第 一 个 孩子 的 年 苓 平均 为 25.0 岁 (《 华 
尔 街 罩 报 》，2009 车 2 月 4 日 )。 记 者 Sue Shellen- 
barger 强调 ， 这 是 近年 来 女性 生育 第 一 个 孩子 的 年 
龄 首次 出 现下 降 。 最 近 ， 选 取 42 名 妇女 组 成 一 个 
样本 ， 她 们 生育 第 一 个 孩子 的 年 龄 数据 存放 在 名 
为 FirstBirth 的 网 络 文件 中 。 数 据 是 否 表明 2006 年 
女性 生育 第 一 个 孩子 的 年 龄 的 的 值 发 生 了 变化 ? 
也 @= 人 3。 

据 Florida Gulf Coast 社区 的 商会 广告 称 ， 该 地 点 住 
宅 房 产 的 平均 成 本 不 超过 125 000 美元 。 假 设 由 32 
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处 房产 所 组 成 的 一 个 样本 表明 ， 其 样本 均值 为 
130 000 美 元 ， 样 本 标准 差 为 12 500 美元 。 在 0.05 
的 显著 性 水 平 下 ， 检 验 广 告 的 有 效 性 。 

2009 年 12 月 25 日 ， 在 西北 汲 空 公司 飞 往 密 吹 根 

州 底特律 的 航班 上 上， 制服 了 一 名 试图 炸 毁 飞机 的 

乘客 。 这 名 乘客 偷偷 把 爆炸 物 藏 在 内 衣 中 混 过 了 

机 场 案件 装置 中 的 金属 探测 仪 。 美 国 和 运输 安 全 局 

(TSA) 建议 在 美国 的 大 型 机 场 安 装 全 身 扫 描 装 置 

代替 金属 探测 仪 。 这 一 提议 章 到 隐私 信 导 者 的 强 

烈 反 对 ， 他 们 认为 全 身 扫 描 效 置 侵犯 了 个 大 隐私 。 

在 2010 年 1 月 的 5~6 号 , 《今日 美 国 》 对 542 名 

成 人 进行 了 一 项 民意 调查 ， 了 解 他 们 当中 有 多 大 

比率 链 同 使 用 全 身 扫 描 装置 ( 《今日 美国 )，2010 

年 1 月 11 日 )。 民 意 调查 结果 显示 ， 有 455 人 认为 

全 身 扫 措 能 够 提高 航空 安全 ， 有 432 人 同意 使 用 该 

装置 。 

a. 利用 假设 检验 的 方法 ， 确 定 民 意 调查 数据 是 否 
支持 作出 结论 : 超过 80% 的 乘客 认为 全 身 扫 措 
能 够 提高 航空 安全 。 取 m=0.05。 

b. 假定 若 有 75 纺 的 乘客 移 同 使 用 ， 则 TSA 会 安装 
并 强制 使 用 全 身 扫 描 装 置 。 要 求 你 根据 民意 调 
查 结 果 进 行 统计 检验 ， 确 定 TSA 是 否 应 该 安装 
并 强制 使 用 全 身 扫 描 装置 。 由 于 这 是 一 个 非常 
敏感 的 决策 ， 因 此 和 检验 中 取 显 著 性 水 平 w = 
0.01。 你 有 何 建议 ? 

虚拟 呼叫 中 心 的 职员 都 是 一 些 外 地 人 。 大 部 分 地 

区 代理 每 小 时 收入 为 10 ~15 美元 (会 保险 费 ) 或 

者 每 小 时 收入 为 7~9 美元 (不 含 保险 费 ) (商业 

周刊 》，2006 年 1 月 23 日 )。 荣 地 方 航空 考虑 聘用 

本 地 代理 ,但 是 只 有 当 顾 客 的 满意 水 平 超过 80% 

时 才能 留用 。 对 本 地 代理 的 服务 进行 检验 ， 在 300 

名 顾客 组 成 的 样本 中 有 252 人 满意 他 们 的 服务 。 

a. 提出 检验 的 假设 ， 用 来 确定 样本 数据 是 否 支 持 
作出 顾客 认为 本 地 代理 的 服务 达到 了 地 方 航空 
的 标准 的 结论 。 

b. 顾客 满意 的 百分比 的 点 估计 是 多 少 ? 

c. 根据 样本 数据 ， 求 p- 值 是 多 少 ? 

和 假设 检验 的 结论 是 什么 ? 取 显 著 性 水 平 
& =0.05, 

Myrtle 海滩 的 电台 称 ， 在 纪念 日 的 周末 ， 至 少 有 
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90% 的 旅馆 和 汽车 旅店 会 客 满 。 如 果 打 算 在 周末 类 错误 的 概率 为 多 少 ? 


去 该 风景 点 的 话 ， 电 台 建 议 听 众 提前 预订 。 周 六 d 当空 闪 时 间 的 总 体 均值 为 70 邹 钟 时 ， 发 生 第 二 

晚 ， 一 个 由 58 家 旅馆 和 汽车 旅店 组 成 的 样本 表明 ， 类 错误 的 概率 为 多 少 ? 

其 中 有 49 家 贴 出 了 无 空房 的 招牌 ， 有 9 家 有 空房 e. 绘 出 该 问题 的 功效 曲线 。 

间 。 在 看 了 这 一 抽样 结果 后 ， 你 对 广播 电台 的 说 76. 用 西洲 =120 和 是,:;w 关 120 来 检验 菜 一 浴 用 肥皂 生 

法 做 何 反 应 ? 统计 检验 中 ， 取 a=0.05, 求 p- 值 为 产 过 程 是 香 达 到 了 每 批 产量 为 120 块 的 标准 。 检 验 

多 少 ? 中 取 显 著 性 水 平 为 0.05， 念 标准 差 的 计划 和 值 为 $。 
74. 在 建筑 计划 的 投标 中 ，Shomey 建筑 公司 假定 每 天 a 如 果 当 产量 的 均值 下 降 到 每 批 117 块 时 ， 企 业 

每 名 建筑 工人 空闲 时 间 的 均值 不 超过 72 分 钟 。 根 将 以 98% 的 概率 作出 结论 认为 产量 未 达到 标准 ， 

据 二 个 由 30 名 建筑 工人 组 成 的 样本 对 此 假设 进行 那么 应 采用 多 大 的 样本 容量 ? 

检验 。 假 设 总 体 的 标准 差 为 20 分 钟 。 b, 在 (a) 中 所 得 的 样本 容量 下 ， 当 实际 产量 的 均 

a. 提出 检验 的 假设 。 值 分 别 为 每 批 117，118，119，121，122 和 和 123 

b. 当空 闵 时 间 的 总 体 均 值 为 80 分 钟 时 ， 发 生 第 二 块 时 ， 能 以 多 大 的 概率 得 出 该 生产 过 程 正 常 运 

类 错误 的 概率 为 多 少 ? 行 的 结论 ? 即 在 每 种 情形 下 ， 发 生 第 二 类 错误 


c. 当空 闲 时 间 的 总 体 均值 为 75 分 钟 时 ， 发 生 第 二 的 概率 为 多 少 ? 


Quality Associates 每 孔 公 司 | 加 





Quality Associates 是 一 家 为 客户 提供 抽样 和 统计 方法 方面 建议 的 咨询 公司 ， 这 些 建 议 可 以 用 来 监控 客户 的 制 
造 流 程 。 在 一 个 应 用 项 目 中 ， 一 名 客户 向 Quality Associates 提供 了 一 个 样本 ,该 样本 由 制造 流程 正常 运行 时 的 800 
个 观察 值 组 成 ， 样 本 标准 差 为 0.21。 假设 总 体 标 准 差 为 0.21。Quality Associates 建议 : 持续 不 断 地 定期 抽取 容量 
为 30 的 随机 样本 监测 制造 流程 。 通 过 对 这 些 新 样本 的 分 析 ， 客 户 可 以 迅速 知道 制造 流程 的 运行 状况 是 否 令 人 满 
意 。 当 制造 流程 的 运行 不 能 令 人 满意 时 ， 可 以 采取 纠正 措施 予以 解决 。 设 计 规格 要 求 制造 流 程 的 均值 为 12，Qual- 
ity Associates 建议 采用 如 下 形式 的 假设 检验 。 
Hesw = 12 
H,:g 12 
只 要 Ho 被 拒绝 ， 就 应 采取 纠正 措施 。 
下 表 为 第 一 天 对 制造 流程 采 半 这 种 新 的 的 统计 控制 方法 时 ， 每 隔 一 小 时 收集 的 样本 数据 。 这 些 数 据 存放 在 名 
为 Quality 的 数据 集中 。 
管理 报告 
1. 对 每 个 样本 在 0.01 的 显 着 性 水 平 下 进行 假设 检验 ， 并 且 确 定 ， 如 果 需 要 的 话 ， 应 该 采取 怎样 的 措施 ? 给 
出 每 一 检验 的 检验 统计 量 和 产值 。 
2. 计算 四 个 样本 中 每 个 样本 的 标准 差 。 假 设 总 体 标 准 差 为 0.21， 这 样 做 是 否 合理 ? 
3. 计算 样本 均值 x 在 j=12 附近 的 一 个 范围 ， 使 得 只 要 样本 均值 在 这 个 范围 内 ， 则 认为 制造 流程 的 运行 状况 
是 令 人 满意 的 。 如 果 * 超 过 上 限 或 低 于 下 限 ， 则 需 采 取 纠 正 措施 。 在 质量 控制 目标 中 ， 这 类 界限 被 称 为 上 侧 或 下 


侧 控 制 限 。 
4， 当 显著 性 水 平 增 大 时 ， 这 意味 着 什么 ? 如 果 增 大 显著 性 水 平 ， 哪 种 错误 或 误差 会 增加 ? 


样本 1 样本 2 样本 3 样本 4 样本 1 样本 2 样本 3 样本 4 
11. 55 11.62 11.91 12. 02 11. 90 11.97 12. 14 12. 11 
11. 62 11.69 11.36 12. 02 11.64 11.71 11. 72 12.07 
11, 52 11. 59 11:78 12. 05 11.80 11. 87 11. 61 12. 05 


re 11. 82 11. 95 12. 18 12, 03 12, 10 11. 85 11.64 
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( 续 ) 
样本 1 样本 2 样本 3 样本 4 样本 1 样本 2 样本 3 样本 4 
11. 94 12. 01 12. 16 12. 39 er 11. 84 12. 12 11.79 
11. 92 11. 99 11..94 11.65 12. 00 12. 07 11, 60 12. 30 
12, 13 12, 20 12, 12 12. 11 12. 04 12. 11 11.95 12. 27 
12. 09 12. 16 11.61 11.90 11.98 12. 05 11.96 12. 29 
11. 93 12. 00 121 如 7 12. 30 让 12. 22 12. 47 
12. 21 i 于 11.56 11. 88 12. 18 12.25 11.75 12. 03 
) 区 允 12, 39 11.95 12. 03 11.97 12. 04 11. 96 1 余下 
11, 93 12. 00 12.01 们 :35 塘 . 钵 12. 24 11. 95 11. 94 
11. 85 11.92 12. 06 12. 09 11. 85 11. 92 11.89 11. 97 
lk. 76 11. 83 11.76 生 . 了 0 12. 30 1 3 11. 88 12. 23 
12. 16 12; 23 11.82 12. 20 12. 15 L222 11.93 12. 25 


案例 9-2 Bayview 大 学 商科 学 生 的 道德 





ne a 财务 经 理 和 其 他 公司 经 理 人 职业 道德 的 
控告 。 当 时 ， 有 一 篇 文章 认为 不 道德 商业 行为 的 部 分 根源 在 于 商科 学 生 中 盛行 欺诈 行为 〈《Chroniale of Higher Edu- 
aa 硬 最 生 了 月 40 有) ， 文章 各 有 56% 的 商科 学 生 承 认 他 们 在 学 期 间 曾 有 过 欺诈 行为 而 在 非 商 科学 生 中 ， 
这 一 比率 为 47%。 

近年 来 ， 坎 诈 行为 一 直 是 Bayview 大 学 商学 院 教 务 主任 关注 的 一 个 问题 。 一 些 大 学 教学 人 员 认 为 ，Bayview 大 
学 的 菊 诈 行为 比 其 他 大 学 更 为 普遍 ， 另 一 些 大 学 教学 人 员 认 为 欺诈 行为 并 不 是 学 院 的 主要 问题 。 为 回复 这 些 说 
法 ， 教 务 主任 委托 对 目前 Bayview 大 学 商科 学 生 欺 诈 行 为 进行 评估 研究 。 作 为 研究 的 一 部 分 ， 由 90 名 本 年 即将 毕 
业 的 商科 学 生 组 成 一 个 样本 ， 向 他 们 分 发 匿名 的 调查 问卷 并 回答 以 下 问题 ， 得 到 与 三 类 欺骗 行为 有 关 的 数据 。 

在 Bayview 大 学 就 学 期 间 ， 你 曾经 将 互联 网 上 的 内 容 拷 贝 作为 自己 的 工作 吗 ? 





是 的 不 是 
在 Bayview 大 学 就 学 期 间 ， 你 曾经 在 考试 中 抄 缆 他 人 的 管 案 吗 ? 
是 的 不 是 





在 Bayview 大 学 就 学 期 间 ， 你 曾经 将 与 其 他 学 生 合作 的 项 目 当 作 自 己 独 立 完 成 的 吗 ? 

1 

如 果 对 这 些 间 题 的 回答 中 有 一 项 或 者 一 项 以 上 为 “是 的 "， 则 认为 学 生 具 有 欺骗 行为 。 下 面 是 搜集 到 的 部 分 
数据 。 整 个 数据 集 在 本 书 光盘 名 为 ee 的 文件 中 。 





学 生 ”从 互联 网 抄 区 ”考试 中 抄袭 将 合作 项 目 当 作 个 人 独立 完成 。 ” ”性 别 


1 No No No 女 
2 No No No 男 
3 Yes No Yes 男 
4 Yes Yes No 田 
5 No No Yes 男 
6 Yes No No 女 
88 No No No 男 
89 No Yes Yes 田 
90 No No No 女 
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请 向 大 学 教务 处 主任 提交 一 份 报告 ， 总 结 评估 Bayview 大 学 商科 学 生 的 欺骗 行为 。 在 报告 中 ， 请 确保 包括 如 
下 内 容 。 

1. 利用 描述 统计 量 对 数据 进行 汇总 并 评论 您 的 结果 。 

2. 在 全 体 学 生 、 男 学 生 和 女 学 生 当 中 ， 分 别 求 发 生 某 种 类 型 欺骗 行为 的 学 生 所 占 比 率 的 9$ 驳 置信 区 间 。 

3. 进行 假设 检验 ， 确 定 是 否 Bayview 大 学 商科 学 生 中 发 生 欺 骗 行为 的 比率 低 于 Chronicle of Higher Education 报 
道 的 其 他 大 学 商科 学 生 ? 

4. 进行 假设 检验 ， 确 定 是 否 Bayview 大 学 商科 学 生 中 发 生 和 欺骗 行为 的 比率 低 于 Chronicle of Higher Education 报 
道 的 其 他 大 学 非 商科 学 生 ? 

5. 根据 你 对 数据 的 分 析 ， 你 对 系 主任 有 哪些 建议 ? 
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实践 中 的 统计 
美国 食品 与 药物 管理 局 
华盛顿 特区 


美国 食品 与 药物 管理 局 (U.S. Food and Drug Ad- 
ministration，FDA) 的 职责 是 通过 其 药物 评估 和 研究 中 
心 (CDER) 来 保证 药物 的 安全 性 和 有 效 性 。 但 CDER 
自己 并 不 会 对 任何 新 药 进行 实际 检验 。 试 图 推出 新 药 
的 公司 有 责任 对 该 药 进行 检验 并 提交 有 关 该 药 安全 性 
和 有 效 性 的 证 明 ， 然 后 CDER 的 统计 学 家 和 科学 家 会 
对 提交 的 证 明 进 行 审查 。 

为 了 使 一 种 新 药 获 得 批准 ， 公 司 进行 了 大 量 的 统 
计 研 究 来 支撑 他 们 的 申请 。 制 药 业 的 检验 过 程 通常 包 
括 三 个 阶段 : (1) 临床 前 检验 ; (2) 长 期 使 用 及 安全 
性 检验 ; (3) 临床 效果 检验 。 在 每 个 相继 的 阶段 ， 药 
物 能 通过 严格 检验 的 机 会 都 在 降低 ， 但 是 ,进一步 检 
验 的 费用 却 急剧 增加 。 行 业 调查 表明 ,研究 开发 一 种 
新 药 平 均 需 花费 2.5 亿美 元 ， 历 时 12 年 ， 因 此 在 检验 
过 程 的 早期 剔除 不 成 功 的 新 药 以 及 识别 出 有 开发 前 景 
以 供 进一步 检验 的 新 药 就 显得 极为 重要 。 

统计 在 药物 研究 中 起 到 重要 作用 ， 因 为 政府 规章 非 
常 严格 而 且 执行 严厉 。 在 临床 前 检验 中 ， 一 般 通 过 两 三 
个 典型 总 体 的 统计 研究 来 稍 定 二 种 新 药 是 否 可 以 继续 进 
行 长 期 使 用 以 及 安全 性 检验 研究 。 总 体 可 以 由 新 药 、 一 
种 控制 药物 以 及 一 种 标准 药物 组 成 。 当 将 一 种 新 药 送 往 
药理 组 进行 药 效 评 价 (药物 产生 期 望 效 果 的 能 力 ) 时 ， 
临床 前 检验 过 程 就 开始 了 。 作 为 该 过 程 的 一 部 分 ， 需 一 


名 统计 学 家 设计 一 套用 于 检验 新 药 的 试验 。 该 试验 必须 
规定 样本 容量 以 及 统计 分 析 方法 。 在 两 总 体 研究 中 ， 一 
个 样本 用 于 获得 有 关 新 药 (总 体 1) 的 药 效 的 数据 ， 第 
二 个 样本 用 于 获得 有 关 标 准 药物 (总 体 2) 的 药 效 的 数 
据 。 根 据 不 同 需要 ， 新 药 及 标准 药物 可 能 在 诸如 神经 
学 、 心 脏 病 学 及 免疫 学 等 学 科 进 行 检验 。 在 大 部 分 研究 
中 ， 统 计 方法 涉及 新 药 总 体 与 标准 药物 总 体 均 值 差异 的 
假设 检验 。 如 果 同 标准 药物 相 比 ， 新 药 缺 乏 效力 或 产生 
了 不 良 的 产 果 ， 新药 就 要 被 拒绝 并 放弃 做 进一步 检验 。 
只 有 那些 同 标准 药物 相 比 显示 出 有 前 景 的 新 药 才 会 被 送 
去 牧 长 期 使 用 及 安全 性 检验 。 

在 药物 长 期 使 用 和 安全 性 的 检测 程序 中 , 在 临床 
试验 的 过 程 中 ， 要 进一步 收集 数据 和 进行 多 总 体 研 究 。 
为 避免 数据 相关 的 偏差 ，FDA 要 求 在 进行 这 些 检验 前 
就 要 确定 统计 浴 法 。 另 外 ,为 了 避免 人 为 偏差 ， 菜 些 
临床 试验 是 双重 或 三 重 保密 的 。 也 就 是 说 ， 无 论 是 受 
试 者 还 是 研究 者 都 不 知道 何 种 药物 分 配给 谁 。 如 果 新 
药品 达到 了 相关 标准 药品 的 所 有 要 求 ， 一 份 新 药 的 申 
请 (NDA) 就 妇 送 法 FDA, 并 由 该 机 构 的 统计 学 家 及 
科学 家 严格 地 详细 审阅 。 

在 本 章 中 ， 你 将 学 习 如 何 进行 两 个 总 体 均值 和 比 
例 的 区 间 估 计 及 假设 检验 ， 这 些 技 术 是 通过 分 析 独 立 
随机 样本 及 匹配 样本 介绍 给 大 家 的 。 


在 第 8 章 和 第 9 章 ， 我们 介绍 了 对 一 个 总 体 的 均值 和 比例 如 何 进行 区 交 和 估计 以 汲 假 设 检验 。 在 本 章 中 ， 当 两 
个 总 体 的 均值 之 差 或 比例 之 差 是 一 个 重要 的 问题 时 ; 通过 说 明 如 何 对 两 个 总 体 进行 区 间 估 计 和 假设 检验 ， 来 继续 
我 们 有 关 统 计 推断 的 讨论 。 例 如 ， 我 们 可 能 要 对 男女 两 个 总 体 的 平均 起 薪 的 差异 进行 区 间 人 和 估计， 或 者 对 供应 商 A 
与 BB 所 生产 的 产品 中 次 品 的 比例 是 否 存 在 差异 进行 假设 检验 。 当 假定 两 个 总 体 的 标准 差 已 知 时 ， 我们 从 说 明 如 何 
进行 两 个 总 体 均 值 之 差 的 区 间 估 计 和 假设 检验 开始 有 关 统 计 推 断 的 讨论 。 


10. 1 两 总 体 均 值 之 差 的 推断 : or 和 oz 已 知 


令 几 表示 总 体 1 的 均值 ， 几 表示 总 体 2 的 均值 ,我们 将 重点 介绍 两 均值 之 差 : , -4 的 统计 推断 。 为 了 进行 
有 关 差 异 的 统计 推断 ,我 们 从 总 体 1 中 抽取 一 个 容量 为 n, 的 简单 随机 样本 ， 从 总 体 2 中 抽取 一 个 容量 为 n, 的 另 
一 个 简单 随机 样本 。 由 于 这 两 个 样本 是 相互 独立 抽取 的 ， 因 此 被 称 为 独立 简单 随机 样本 (independent simple ran- 
dom samples) 。 在 本 节 ， 我 们 假定 可 用 信息 是 : 在 选取 样本 前 两 个 总 体 的 标准 差 o, 和 og, 可 以 被 假设 是 已 知 的 ， 我 
们 称 这 种 情形 为 ec, 和 c: 已 知 的 情形 。 我 们 在 下 面 例 子 里 说 明 ， 当 ri 和 za 已 知 时 ， 如 和 何 计算 误差 范围 及 如 何 进行 
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两 个 总 体 均值 之 差 的 区 间 估 计 。 
10. 1. 1 ji 一 2 的 区 间 估 计 
Greystone 百货 公司 在 纽约 州 的 布 法 罗 经 营 两 个 商场 ; 一 个 位 于 市 区 ， 另 一 个 地 处 郊区 购物 中 心 。 地 区 经 理 注意 
到 在 一 个 商场 畅销 的 商品 在 另 一 个 商场 卖 得 不 一 定好 。 经 理 认为 这 种 情形 归 因 于 这 两 个 地 区 顾客 人 群 的 差异 。 顾 客 
可 能 在 年 龄 、 受 教育 程度 、 收 入 等 诸 方面 存在 差异 。 假 定 经 理 要 求 我 们 调查 这 两 个 商场 的 顾客 平均 年 龄 的 差异 。 
我 们 定义 总 体 1 为 在 市 区 商场 购物 的 所 有 顾客 ， 总 体 2 为 在 郊区 商场 购物 的 所 有 顾客 。 
Ai = 总 体 1 的 均值 ( 即 在 市 区 商场 购物 的 所 有 顾客 的 平均 年 龄 ) 
ji = 总 体 2 的 均 信 ( 即 在 郊区 商场 购物 的 所 有 顾客 的 平均 年 龄 ) 
这 两 个 总 体 的 均值 差 是 4 -上 。 
为 估计 由 -ks， 我 们 从 总 体 1 中 抽取 一 个 由 n, 名 顾客 组 成 的 简单 随机 样本 ， 从 总 体 2 中 抽取 一 个 由 n, 名 顾 
客 组 成 的 简单 随机 样本 ， 然 后 我 们 计算 这 两 个 样本 均值 。 
为 = mi 名 市 区 顾客 的 简单 随机 样本 的 样本 平均 年 龄 
w= ns 名 郊区 顾客 的 简单 随机 样本 的 样本 平均 年 龄 
两 总 体 均值 之 差 的 点 估计 量 是 两 个 样本 均值 之 差 。 





=J4-j4 的 点 估计 量 
Se 图 10-1 估计 两 总 体 的 均值 之 差 
与 其 他 点 估计 量 一 样 ， 点 估计 量 二 “元 有 一 个 描述 估计 量 抽样 分 布 变异 性 的 标准 误差 。 对 于 两 个 独立 简单 随 
机 样本 ， 2 —% 的 标准 误差 如 下 2 : 


差 就 是 x - 因 抽样 分 布 的 标准 差 。 
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如 果 两 个 总 体 都 服从 正 态 分 布 ， 或 者 样本 容量 足够 大 ， 使 得 我 们 可 利用 中 心 极限 定理 得 出 : x; 和 避 的 抽样 分 
布 近似 服从 正 态 分 布 ， 那 么 x -五 的 抽样 分 布 将 服从 均值 为 -po 的 正 态 分 布 。 
正如 我 们 在 第 8 守 庆 轴 久 他 于 池 ; 由 一 个 点 估计 量 + 一 个 边际 误差 就 可 得 出 区 间 估 计 。 在 两 个 总 体 均 秆 之 差 





所 py wh 土 边际 误差 
如 果 % -部 的 抽样 分 布 服从 正 态 分 布 ， 我 们 可 得 出 边际 误差 如 下 : ” 
z 边际 误差 = za0r-z = 
于 是 ， 两 总 体 均值 之 差 的 区 间 估 计 如 下 : 


(10-3) 








我 们 再 以 Greystone 为 例 ， 以 先前 顾客 统计 研究 的 数据 为 依据 ， 两 个 总 体 标准 差 已 知 ， 分 别 为 go， =9 岁 和 ex = 
10 岁 。Greystone 顾客 的 两 个 独立 简单 随机 样本 收集 来 的 数据 给 出 了 下 面 的 结果 。 


: 市 区 商场 郊区 商场 
样本 容量 ni =30 Ho!= 49 
样本 均值 Xi =40 岁 | 加 二 35 岁 


利用 式 (10-1)， 我 们 得 到 两 个 总 体 平均 年 龄 之 差 的 一 个 点 估计 量 为 3 x1 -X=40-35=5 岁 。 于 是 , 我们 认为 
市 区 商场 的 顾客 平均 年 龄 比 郊 区 商场 大 5 岁 。 现 在 我 们 利用 式 (10-4) 来 计算 边际 误差 并 给 出 Kt -全 的 区 间 佑 
讲 %p 在 95% 的 置信 水 平 下 ， Zu = Zo 025 二 |. 96 ， 我 们 有 : 


2 

3 和 靖 Fi .2 
XI 二 No sh 

nn Nn, 


40 - 35 二 工人 站 6 10 
5 土 4.06 ， 
因此 ， 边 际 误差 为 4.06 岁 ， 两 总 体 均值 之 差 和 的 95% 的 置信 区 间 估 计 为 5-4.06 =0.94 岁 到 5 +4.06 =9. 06 岁 。 


10. 1.2 Ki1 -az 的 假设 检验 


现在 我 们 来 讨论 两 个 总 体 均 值 之 差 的 假设 检验 。 令 D, 表 示 ju, 与 po 之 间 假设 的 关 ， 假设 检验 的 三 种 形式 如 下 
Huo: -wD Hn -wD Hp -ps =D 
Hep mm < DD Hp-m > be Hm -WD 
在 许多 应 用 中 , D。=0, 以 双 侧 检验 为 例 ， 当 Ds =0 时 ， 原 假设 为 H, :py -pp,=0。 在 这 种 情形 下 ， 原 假设 为 
号 与 请 相 等 。 拒 绝 Hs 可 推出 H, :pj -pos 关 0 为 真 的 结论 ; 也 就 是 说 , jp 与 入 不 相等 。 
第 9 章 介 绍 的 假设 检验 的 步骤 在 这 里 也 是 适用 的 。 我 们 必须 选择 一 个 显著 性 水 平 ， 计 算 检 验 统计 量 ， 并 求 出 
Pp- 值 以 决定 是 否 应 拒绝 原 假设 。 对 于 两 个 独立 简单 随机 样本 ， 我 们 发 现 ， 式 (10-2) 给 出 了 点 策 计 量 x, ~x, 的 标 
准 误差 wz _;， 并 且 当 样本 容量 充分 大 时 ， x, -= 你 服 从 正 态 分 布 。 在 这 种 情形 下 ， 当 :coy 和 os 已 知 时 ， 两 个 总 体 均 


加 边际 误差 等 于 标准 误差 乘 以 zu。 
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值 之 差 的 检验 统计 量 如 下 所 示 。 


A er 
Sw 风 





| I a 汪 


在 下 面 假设 检验 的 例子 中 ， 我 们 将 演示 如 和 何 使 用 这 一 检验 统计 量 。 
作为 评价 两 个 培训 中 心 教育 质量 差异 的 研究 的 一 部 分 ， 对 两 个 中 心 的 学 员 进 行 了 一 次 标准 化 考试 。 用 考试 平 
均 分 数 的 差 来 评估 两 个 中 心 教育 质量 的 差异 。 两 个 中 心 的 总 体 均 值 如 下 。 
= 在 A 中心 培训 的 学 员 总 体 的 平均 考试 分 数 
pa = 在 B 中 心 培训 的 学 员 总 体 的 平均 考试 分 数 
我 们 从 一 个 尝试 性 的 假设 开始 讨论 : 两 个 中 心 的 培训 质量 没有 差异 。 因 此 ， 从 平均 考试 分 数 的 角度 讲 ， 原 假 
设 就 是 jw -ps =0。 如 果 抽 样 证 据 导 致 拒绝 该 假设 ， 我 们 就 可 以 得 出 两 总 体 平均 考试 分 数 有 差异 的 结论 。 该 结论 
表示 两 个 中 心 教育 质量 不 同 并 建议 对 产生 这 种 差异 的 原因 进行 跟踪 调查 研究 。 对 这 一 双 侧 检验 ， 原 假设 和 备 择 假 
设 如 下 。 
Him -pH =0. 
Hp -pa 0 
以 前 在 各 种 情形 下 进行 的 标准 化 测试 总 能 导致 考试 分 数 有 近 10 分 的 标准 差 。 于 是 ， 我 们 将 利用 这 一 信息 假 
设 总 体 标准 差 已 知 ， 且 0, =10 和 vs =10。 指 定 研究 的 显著 性 水 平 为 a=0.05。 
从 A 培训 中 心 抽 取 一 个 n, =30 人 的 独立 简单 随机 样本 ,从 B 培训 中 心 抽取 一 一 个 m =40 人 的 独立 简单 随机 样 
本 。 样本 均值 分 别 为 * “1 =82、, % =T78 这 些 数据 是 否 表明 两 个 培训 中 心 的 总 体 均值 存在 一 个 显著 差异 ? 为 了 回答 
这 个 问题 ， 我 们 利用 式 (10-5) 计算 检验 统计 量 。 
_ (五 一 而 ) -Ds _ (82-78) -0 
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接 下 来 我 们 计算 双 侧 检验 的 p- 值 ， 由 于 检验 统计 量 z 是 在 上 侧 ， 我们 首先 计算 z=1. 66 的 右 侧 曲线 下 的 面积 。 
利用 标准 正 态 分 布 表 , z=1. 66 的 左 侧 曲 线 下 的 面积 为 0.951 5。 因 此 ， 该 分 布 上 侧 的 面积 为 1. 000 0 -0.9515 = 
0. 048 5。 由 于 这 个 检验 是 双 侧 检验 ， 我 们 必须 用 2 乘 上 侧面 积 ， 得 到 :; p- 值 =2 x0.048 5 =0.097 0。 遵 循 通常 的 
法 则 ， 如 果 声 值 <a,， 则 拒绝 H,。 我 们 看 到 ， 在 0.05 的 显著 性 水 平 下 , p- 值 =0. 097 使 我 们 不 能 拒绝 H,。 样 本 结 
果 不 能 为 我 们 提供 足够 的 证 据 来 断定 两 个 培训 中 心 的 质量 是 不 同 的 。 

本 章 我 们 将 利用 第 9 章 所 述 的 p- 值 法 进行 假设 检验 。 但 是 ， 如 果 你 愿意 ， 也 可 使 用 检验 统计 量 和 临界 值 拒绝 
法 则 。 当 wa=0.05 时 ， zs = =1.96。 如 果 :六 -1.96 或 z 宇 1.%6， 利 用 临界 值 法 的 拒绝 法 则 就 会 拒绝 H,。 
当 z=1.66 时 ,我 们 同样 得 出 不 拒绝 Hj 的 结论 。 

在 上 面 的 例子 中 ， 我 们 讲述 两 个 总 体 均值 之 差 的 双 侧 假设 检验 。 我 们 也 可 以 考虑 下 侧 检 验 和 上 侧 检 验 。 这 
些 答 验 使 用 的 检验 统计 量 与 式 (10-5) 相同 。 对 于 这 些 单 侧 检验 ， wii 
相同 。 


10.1.3 实用 建议 
本 节 所 给 出 的 区 间 估 计 与 假设 检验 的 大 部 分 应 用 ， 随 机 样本 都 满足 n 宇 30 及 n, 宇 30, 一 旦 其 中 之 一 或 两 者 的 


样本 容量 都 小 于 30， 总 体 的 分 布 就 需 重 点 加 以 考虑 。 在 一 般 情况 下 ， 当 样本 容量 较 小 时 ， 对 分 析 者 来 说 ， 更 为 重 
要 的 是 满足 两 个 总 体 近 似 服从 正 态 分 布 的 合理 假设 。 





方法 
六 2. 考虑 下 面 的 假设 检验 。 
了 > 
下 面 的 结果 来 自 两 个 总 体 的 两 个 独立 随 栅 样本 。 

样本 1 样本 2 

ni =40 ny =50 

X =252 x '=22.8 

oi 二 下 小 2 =6.0 


a. 检验 统计 量 的 值 是 多 少 ? 
b. p- 值 是 多 少 ? 
c， 对 a=0.05， 假设 检验 的 结论 是 什么 ? 


应 用 


六 4. 


10.2 两 总 体 均 值 之 差 的 推断 : ci 和 办 未 知 


Condé Nast Traveler 杂志 进行 了 一 项 年 度 调 查 ， 读 者 对 

他 们 最 喜爱 的 豪华 游轮 进行 评分 。 所 有 游轮 按 百 分 制 

评分 ， 分 值 越 高 表示 服务 越 好 。 由 37 稻 载 客 量 小 于 

500 人 的 游轮 组 成 一 个 样本 ,平均 得 分 为 85.36; 由 

44 稻 载 客 量 大 于 500 人 的 游轮 组 成 一 个 样本 ， 平 均 得 

分 为 81. 40 (Condée Nast Traveler，2008 年 2 月 )。 人 假定 

载 客 量 小 于 500 人 的 游轮 的 总 体 标准 差 为 4 55， 载 客 

量 大 于 500 人 的 游轮 的 总 体 标准 差 为 3.97。 

a, 载 客 量 小 于 500 人 的 游轮 和 载 客 量 大 于 500 人 的 
游轮 的 总 体 平 均 得 分 之 差 的 点 估计 是 多 少 ? 

b. 对 于 95% 的 置信 水 平 ， 边 际 误差 是 多 少 ? 

c. 两 种 载 客 量 游轮 的 总 体 平均 得 分 之 差 的 95% 的 置 
信 区 间 估 计 是 多 少 ? 


. 假设 你 负责 组 织 一 次 商务 会 议 。 由 于 最 近 经 济 衰退 


预算 削减 ， 你 需要 为 会 议 选择 一 个 有 最 便宜 酒店 房 
闻 的 城市 。 你 将 选择 锁定 在 亚特兰大 和 休斯敦 两 个 
城市 。 在 本 书 所 附 光 盘 名 为 Hotel 的 文件 中 有 亚 特 
兰 大 和 休斯敦 酒店 房间 价格 的 样本 ， 这 些 样本 数据 
与 Smith 旅游 研究 (Smith Travel Research) 报告 的 
结果 一 致 (SmartMoney，2009 年 3 骨 )。 因 为 有 大 
量 的 关于 这 两 个 城市 酒店 房间 价格 的 历史 数据 可 
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py | a - fe em 
oo en Te Fh 可 


用 ， 因 此 亚特兰大 房间 价格 的 总 体 标 准 差 假 定 为 20 
美元 ， 休 斯 敦 房 间 价 格 的 总 体 标准 差 假 定 为 25 美 
元 。 基于 这 些 样 本 数据 ， 你 能 得 出 亚特兰大 酒店 房 
间 的 平均 价格 比 休斯敦 低 的 结论 吗 ? 


-对 于 提供 优质 服务 的 公司 ， 疏 善 客 户 服 务 质 量 将 有 


助 于 公司 股票 价格 的 上 涨 吗 ? “研究 发 现 ， 当 一 个 
公司 的 满意 度 得 分 比 上 年 度 有 所 提高 ， 并 且 高 于 全 
美 平均 水 平 (目前 是 75.7) 时 ， 从 长 远 来 看 ， 该 公 
司 的 股票 有 一 个 优 于 大 盘 股 市 的 良好 机 会 ”(《 商 业 
周刊 》，2009 年 3 月 2 日 )。 下 面 是 从 美国 消费 者 满 
意 度 指数 得 到 的 三 家 公司 2007 年 和 2008 年 第 四 季 
度 的 满意 度 得 分 。 假 设 满意 度 得 分 是 以 每 家 公司 的 
60 名 消费 者 的 投票 为 依据 。 由 于 投票 已 经 进行 了 好 
几 年 ， 所 以 在 每 一 种 情形 下 可 将 三 个 公司 的 标准 差 
假定 为 6 分 。 


公司 2007 年 得 分 2008 年 得 分 
Rite Aid 73 76 
Expedia 75 419 
J.C. Penney 77 78 


a. 在 a=0.05 的 显著 性 水 平 下 ，2007 ~ 2008 年 ， 
Rite Aid 公司 满意 度 得 分 的 增加 在 统计 上 是 否 显 
著 ? 你 的 结论 如 何 ? 

b. 在 a =0.05 的 显著 性 水 平 下 ， 你 是 否 能 断定 : 
Rite Aid 公司 2008 年 的 满意 度 得 分 高 于 75.7 的 
全 美 平均 水 平 ? 

c. 在 a=0.05 的 显著 性 水 平 下 ，2007 ~ 2008 年 ， 
Expedia 公司 满意 度 得 分 的 增加 在 统计 上 是 否 
显著 ? 

d. 在 给 定 标准 差 、 样 本 容量 和 a 数值 的 情况 下 进行 
假设 检验 时 ，2007 ~ 2008 年 满意 度 得 分 必须 增加 
多 少 才 会 在 统计 上 是 显著 的 ? 

e. 利用 (d) 的 结果 来 陈述 ; 2007 ~ 2008 年 , J.C. 
Penney 公司 满意 度 得 分 的 增加 在 统计 上 是 否 显 著 。 


在 本 节 ， 对 两 总 体 标准 差 r 和 未 知 的 情形 ， 我 们 将 延伸 有 关 两 总 体 均 值 之 差 统 计 推 断 的 讨论 。 在 这 种 情 
况 下 ， 我 们 用 样本 标准 差 % 和 s, 来 估计 未 知 的 总 体 标准 差 。 当 我 们 利用 样本 标准 差 时 ， 区 间 估 计 与 假设 检验 的 程 
序 将 建立 在 t 分 布 的 基础 上 而 非 标准 正 态 分 布 。. 
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-在 下 面 的 例子 里 我 们 将 介绍 ， 当 co 和 oa 未 知 时 ， 如 何 计 算 边 际 误差 以 及 如 何 可 建立 两 总 体 均值 之 差 的 区 间 售 
计 。Clearwater 国家 银行 正在 进行 一 项 研究 ， 旨 在 确定 其 两 个 分 行 的 客户 支票 账户 余额 之 间 的 差异 。 从 ;Cherry 
Grove 分 行 抽取 28 个 支票 账户 组 成 一 个 简单 随机 样本 ， 从 Beechmont 分 行 抽取 22 个 支票 账户 组 成 男 一 个 独立 的 简 
单 随机 样本 。 每 个 支票 账户 的 当前 余额 被 记录 下 来 。 账户 余额 汇总 如 下 : 


”Cherry Grove Beechmont 

样本 容量 “hr mh =28 m =22 
”样本 均值 2 i 三 1 025 美元 x2 =910 美元 

本 3 J 5 =125 美元 


elt 国家 银行 打算 估计 C Cherry Grove 和 Beechmont 两 个 分 行 客户 总 体 支票 账户 余额 均值 的 差异 。 我 们 来 
计算 这 两 个 总 体 均值 之 差 的 边际 误差 和 区 间 估计 。 
在 第 10.1 节 ， 当 标准 差 r 和 ,已 知 时 ， 我 们 给 出 了 下 面 的 区 间 估计 。 


人 Ra 
当 o 和 co: 未 知 时 ， 我 们 用 样本 标准 差 5 和 ss 来 估计 oo, 和 oq,， 并 用 1 代替 z。。。 则 两 总 体 均 值 之 差 的 区 间 估 计 表 
达 式 如 下 。 i. 





在 该 式 中 ， 所 用 的 :分 布 是 近似 分 布 ， 但 估计 结果 很 好 且 应 用 入 对 简单 。 在 应 用 式 10-6) 的 过 程 中 遇 到 的 
中 一 难题 是 确定 .和 全 泛 的 自由 上 统计 软件 包 可 自动 计算 合适 的 自由 谋 。 所 用 公式 如 下 :9 





我 们 继续 以 Clearwaier 国家 银行 为 例 ， 来 介绍 如 何 应 用 式 《10-6) 来 估计 两 个 分 行 支票 账户 余额 总 体 均值 之 
差 的 95% 的 置信 区 间 估 计 。Cherry Grove 分 行 的 样本 数据 是 n=28， wi =1 025 美元 ，s; = 150 美元 ，Beechmont 分 
行 的 样本 数据 是 m=22， =910 美元 ;5 =125 美元 。ts 的 自由 度 计算 如 下 





| 好 起 M3 i150 “ 125 
et ea 有 rave th Eg 





i 1 __ [150 1 1 
< ps 2 38 -1 ( 28) We | 
”为 得 到 一 个 较 大 的 + 值 和 更 保守 的 区 间 信 计 ， 我 们 把 非 整 的 自由 度 取 整 为 47。 查 自 由 度 为 和 7 的 1 分 布 表 ， 可 
得 和 mm: -2. 012。 利 用 式 10-6) ， 我 们 建立 两 总 体 均值 之 差 的 959% 的 车 信 区 间 如 下 。 


名 当 用 。 和 史 来 估计 和 ws 时 ,+ 分布 用 于 对 两 总 体 均值 之 差 进行 统计 推断 。 
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115 78 | 
两 分 行 支票 账户 余额 总 体 均值 之 差 的 点 估计 值 为 115 美元 ， 边 际 误差 为 78 美元 ,两 总 体 均值 之 差 的 95% 的 置信 
区 间 估 计 为 115 -78 =37 美元 到 115 +78 = 193 美元 。 
车 利用 式 (10-7) 人 工 计算 自由 度 是 非常 繁杂 的 ， 而 用 计算 机 软件 包 就 很 容易 了 。 注意; 在 式 (10-6) 和 
式 (10-7) 中 都 有 s/n 和 和 /ny 为 了 估计 式 (10-6) 和 式 (10-7) ， 这 些 值 仅 需要 计算 一 次 。2 


10. 分， 2 th 一 凡 2 了 县 设 林 T ET 


现在 我 们 来 讨论 总 体 标准 差 ol 和 os 未 知 时 的 两 总 体 均值 之 差 的 假设 检验 。 假 设 与 心 之 差 可 用 及 表示 ， 在 
第 10.1 Ws 当 g, 和 0o; 已 知 时 ， 我们 给 出 了 下 面 的 检验 统计 量 。 


(i ~— wi) -=D 





检验 统计 量 z 服从 标准 正 态 分 布 。 
当 oi 和 oo; 未知 时 ， 我们 用 ,作为 0 的 估计 量 ，s; 作 为 ;的 估计 量 。 当 oo 和 os 未 知 时 ， 我们 用 这 两 个 样本 标 
准 差 蔡 代 To 和 ‘0; 可 得 以 下 的 检验 统计 量 。 





ep ee | 
设想 开发 一 个 新 的 计算 机 软件 包 ， 它 有 助 于 系统 分 析 员 减少 设计 、 开 发 、 实 现 信息 系统 所 需要 的 时 间 。 为 评 
估 新 软件 包 的 优点 ， 抽 取 了 24 名 系统 分 析 员 组 成 一 个 随机 样本 。 发 给 每 个 分 析 员 一 张 假定 的 信息 系统 的 说 明 书 。 
指定 其 中 12 名 分 析 员 使 用 当前 技术 来 开发 该 信息 系统 ， 另 外 12 名 分 析 员 先 接受 新 软件 包 的 培训 ， 然 后 用 新 软件 
包 来 开发 该 信息 系统 。 
在 本 研究 中 有 两 个 总 体 : 使 用 当前 技术 的 系统 分 析 员 总 体 和 使 用 新 软件 包 的 系统 分 析 员 总 体 。 考 虑 完成 该 信 
息 系统 设计 项 目 所 需要 的 时 间 ， 总 体 均 值 如 下 。 
以 一 一 使 用 当前 技术 的 系统 分 析 员 平均 完成 项 目 时 间 
风 一 一 使 用 新 软件 包 的 系统 分 析 员 平 均 完成 项 目 时 间 
负责 评估 新 软件 的 研究 人 员 希 望 证 明 新 软件 包 能 使 平均 完成 项 目 时 间 缩 短 。 因 此 ， 研 究 人 员 要 寻找 证 据 来 验 
证 请 是 小 于 心 的 ; 在 这 种 情形 下 ， 两 总 体 均 值 之 差 pp, -jr 将 大 于 0。 研究 的 假设 1 -万 >0 是 作为 备 择 假设 提出 
来 的 。 因 此 ， 假 设 检验 为 
Ho :pK — Hz SE 0 
: Hp -pj >0 
我 们 使 用 的 显著 性 水 平 为 & =0. 05。 


加” 如果 你 利用 式 (10-7) 手工 计算 自由 度 ， 该 建议 应 该 是 有 帮 有 动 的 。 
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假定 24 个 分 析 员 完成 研究 的 时 间 如 表 10-1 所 示 ， 利 用 式 (10-8) 给 出 的 检验 统计 量 ， 我 们 得 到 








-光一 本 /一 矶 表 10-1 软件 检验 研究 的 完成 时 间 数 据 与 汇总 统计 
2 -人 当前 技术 新 软件 
mh 300 274 
280 220 
= -2%6) -0 Ry 344 308 
44- FE 336 
pi 372 198 
利用 式 (10-7) 计算 自由 度 ， 我 们 得 到 
全 Bey 321 258 
n! n, 376 318 
可 二 1 3 ] $2 : 290 310 
二 人 30 552 
283 263 
EE- FE | 汇总 统计 量 
i la ”入 样本 容量 ni =12 由 宇多 
I 样本 均值 高 =325 (小 时 ) ” 克 =286 (小 时 ) 
ps (3 有 (2) 样本 标准 差 51 =40 2 =44 
舍 和 后， 我们 将 使 用 自由 度 为 21 的 i 分 布 表 。t 分 布 表 的 这 一 
行 如 下 所 示 : 
上 侧面 积 






t 值 (自由 度 21) 


对 于 上 侧 检 验 ，p- 值 就 是 :=2. 27 右 侧 曲线 下 的 面积 。 从 上 面 结 果 可 知 ，p- 值 处 于 0.025 与 0.01 之 间 。 因 此 ， 
p 值 小 于 a=0.05, 并 且 Ho 被 拒绝 。 样 本 结果 能 使 研究 者 得 出 结论 : pv, -1, >0， 或 jw > 于是， 调查 研究 证 实 
了 新 的 软件 包 能 减少 平均 完成 项 目的 时 间 。” 

Minitab 或 Excel 能 用 来 分 析 两 总 体 均值 之 差 的 检验 假设 的 数据 。 如 图 10-2 所 示 ，Minitab 的 输出 结果 比较 了 当 
前 的 和 新 的 软件 技术 。 输 出 的 最 后 一 行 表 示 :=2.27 及 p- 值 =0;017。 注 意 ，Minitab 利用 了 式 (10-7) 计算 出 这 
个 分 析 的 自由 度 是 21。 

Two-sample T for Current vs New 
N Mean stDev 


Current 12 a 40.0 
New 12 286.0 444 .0 


Difference = mi Current -= mu New 
Estimate for difference: 39.,.0000 
95$% lower bound for difference = 9.5 


T-Test of differenee = 0 (ws >}); ,T=Value = .2 "P<Value = 0.017 DF = 21 


图 10-2 ”当前 的 和 新 的 软件 技术 假设 检验 的 MINITAB 输出 结果 





10. 2.3 实用 建议 


本 节 介 绍 的 区 间 估 计 与 假设 检验 方法 是 一 种 强 有 力 的 实用 方法 ， 并 且 可 用 于 相对 较 小 的 样本 容量 。 在 大 部 分 
应 用 中 ， 如 果 两 个 总 体 的 样本 容量 n, 和 ns 相等 或 接近 相等 ， 使 得 总 样本 容量 mm + n, 至 少 为 20 时 ， 即 使 总 体 不 是 


昌 应 用 1 分 布 表 ,我 们 只 能 确定 p- 值 的 一 个 范围 ,利用 Exc 纪 或 Minitab ， 表 明 精 确 的 产值 =0.017。 
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正 态 分 布 ， 我们 也 能 期 望 得 到 非常 好 的 结果 。 如 果 总 体 分 布 高 度 偏 斜 或 含有 异常 点 ,我们 建议 使 用 较 大 的 样本 容 
量 。 只 有 当 分 析 者 认为 总 体 分 布 近似 服从 正 态 分 布 时 才 可 使 用 较 小 的 样本 容量 。” 
注释 和 评论 
当 oj 和 a) 未 知 时 ， 另 一 种 对 两 总 体 均 值 之 差 进 行 统计 推 断 的 方法 ,是 以 假设 两 总 体 的 标准 差 相 等 (og, = 
0 =I) 为 依据 。 在 此 假设 下 ， 将 两 个 样本 方差 组 合 起 来 ， 得 到 合并 的 样本 方差 : 
EE (zi 一 1)s1 t'(n, ~ B)s» 
和 n+m=2 
检验 统计 量变 为 
-二 一 
1 1 


Ss Ce 一 一 一 


“和 一 
并 且 自 由 度 为 mi +ma 一 2。 在 这 里 ，p- 值 的 计算 及 样本 结果 的 解释 与 本 节 较 早 时 讨论 的 步骤 相同 。 
这 个 过 程 中 的 一 个 难题 就 是 两 总 体 标 准 差 相等 的 假设 通常 难以 验证 ,我 们 经 常 遇 到 的 是 不 等 的 标准 差 。 尤 其 
当 样 本 容量 nn 和 nn 相差 很 大 时 ， 应 用 合并 步骤 不 可 能 提供 满意 的 结果 。 
本 节 介 绍 的 t 检 验方 法 并 不 需要 总 体 标 准 差 相 等 的 假设 ， 并 且 不 论 总 体 标准 差 相 等 与 否 都 是 适用 的 。 在 大 部 
分 的 应 用 中 ,检验 是 被 我 们 推荐 使 用 的 较为 一 般 的 方法 。 





方法 平均 每 天 行驶 18.6 英里 ， 标 准 差 为 每 天 7.4 英里 。 
六 10. 考虑 下 面 的 假设 检验 。 a. 布 法 罗 居 民 和 波士顿 居民 每 天 平均 行驶 的 英里 
H :ww -pu, =0 数 之 差 的 点 估计 是 多 少 ? 
hn b， 两 个 总 体 均值 之 差 的 95% 的 置信 区 间 是 多 少 ? 
下 面 的 结果 来 自 两 个 总 体 的 两 个 独立 随机 样本 。 14. 佛罗里达 州 坦 帕 市 护士 的 薪金 水 平 比 得 克 萨 斯 州 达 
a di 拉 斯 市 低 吗 ?7 薪金 数据 显示 ， 坦 帕 医 院 护 士 的 薪金 
ead i 要 比 达 拉 斯 的 低 (The Tampa Tribune，2007 年 1 月 
Te sr 15 日 ) 。 假 设 对 坦 帕 的 40 名 医院 护士 和 达拉斯 的 50 
Nps es 名 医院 护士 进行 一 项 后 续 研究 ， 得 到 如 下 结果 。 
坦 帕 达拉斯 
a. 检验 统计 量 的 值 是 多 少 ? 了 ns =50 
b. 4: 分布 的 自由 度 是 多 少 ? 太 =56 100 美元 志 =59 400 美元 
c. 了 - 值 是 多 少 ? il =6000 美元 sz =7.000 美元 
d. 若 a=0.05， 你 的 结论 是 什么 ? 

应 用 a 提出 这 样 的 假设 ， 如 果 原 假设 被 拒绝 ， 我们 可 以 
六 12. 美国 交通 部 (U.S, Department of Transportation) 给 得 到 结论 : 坦 帕 医院 护士 的 薪金 显著 的 低 于 达 拉 
出 了 75 个 最 大 的 大 都 会 区 居民 每 天 一 辆 汽车 行驶 的 斯 医院 护士 的 薪金 。 显 著 性 水 平 为 a =0.05。 
英里 数 。 假 设 由 50 名 布 法 罗 居 民 组 成 的 简单 随机 样 b. 检验 统计 量 的 值 是 多 少 。 

本 ， 平 均 每 天 行驶 22.5 英里 ， 标 准 差 为 每 天 8.4 英 c, P- 值 是 多 少 。 
里 ; 由 4 名 波士顿 居民 组 成 的 独立 简单 随机 样本 ， d. 你 的 结论 是 什么 ? 


日 ”无 论 是 否 可 能 ， 相 同 的 样本 容量 nl =ny 都 是 可 取 的 。 
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16. 美国 大 学 理事 会 以 学 生父 母 所 受 的 最 高 教育 水 平 


为 依据 ， 比 较 了 SAT 的 分 数 。 一 项 研究 的 假设 是 ， 
父母 受 教育 水 平 较 高 的 学 生 ， 其 SAT 的 平均 分 数 
也 比较 高 。SAT 数学 分 数 的 总 体 平 均 分 是 $S14 分 
(College Board website，2012 年 1 月 8 日 )。 对 于 独 
立 的 学 生 样 本 ，SAT 数学 分 数 如 下 表 所 示 。 第 一 个 
样本 是 父母 为 大 学 毕业 且 拥 有 学 士 学 位 的 学 生 的 
SAT 数学 分 数 。 第 二 个 样本 是 父母 为 高 中 毕业 没有 
大 学 学 位 的 学 生 的 SAT 数学 分 数 。 


学 生父 母 


均 分 数 也 比较 高 。 
b: 两 总 体 平均 分 数 之 差 的 ,点 估计 是 多 少 ? 
c. 计算 假设 检验 的 P- 值 。 
d. 在 a=0;05 的 显著 性 水 平 下 ， 和 你 的 结论 是 逢 么 ? 


. 美国 普 渡 大 学 和 威 奇 塔 州立 大 学 的 研究 人 员 发 现 ， 


航空 公司 正在 做 一 件 有 益 的 工作 : 让 乘客 能 准点 
到 达 目 的 地 ( 美 联 社 ，2012 年 4 月 2 日 )。 美 国 穿 
越 航 空 公司 (AirTran Airways) 和 西南 航空 公司 
(Southwest Airlines) 的 航班 ， 有 '88 久 能 准点 到 达 
目的 地 ， 从 而 跻身 准点 到 达 的 航空 公司 之 中 。 但 是 


对 于 12% 延误 的 航班 ， 这 些 航班 延误 的 时 间 是 多 
少 分 钟 呢 ? 在 本 书 所 附 光 盘 名 为 AirDelay 的 文件 
中 ,给 出 了 这 两 个 航空 公司 的 航班 延误 时 间 ( 单 
a 建立 能 用 来 检验 这 两 个 航空 公司 延误 航班 的 总 





体 平均 延误 时 间 之 差 的 假设 。 
b. 每 个 航空 公司 延误 航班 的 奉 未 平均 延误 时 间 是 
多 少 ? 
到 提出 可 以 用 来 确定 样本 数据 是 否 支持 的 假设 : c. 在 a=0.05 的 显著 性 水 平 下 ，P- 值 是 多 少 ? 你 的 
如 果 父 母 受 教育 程度 较 高 ， 则 学 生 数学 总 体 平 结论 是 什么 ? 


10. 3 ”两 总 体 均值 之 差 的 推断 ; 匹配 样本 


假设 一 家 制造 企业 的 员工 可 用 两 种 不 同方 法 完成 一 项 生产 任务 。 为 了 使 产品 产量 最 大 化 ， 公 司 想 确认 总 体 完 
成 生产 任务 平均 时 间 较 少 的 方法 。 令 心 表 示 生 产 方 法 1 的 总 体 完 成 生产 任务 的 平均 时 间 ， 几 表示 生产 方法 2 的 总 
体 完成 生产 任务 的 平均 时 间 。 在 不 知道 哪 种 方法 更 好 的 条 件 下 ， 我 们 暂时 假设 两 种 方法 具有 相同 的 平均 完成 生产 
任务 时 间 。 因 此 ， 原 假设 为 : Hu:w, -上 =0。 如 果 拒 绝 原 假设 ,我 们 就 可 得 出 总 体 完 成 生产 任务 的 平均 时 间 不 等 
的 结论 。 在 这 种 情况 下 ， 就 可 找 出 完成 生产 任务 平均 时 间 较 少 的 方法 。 原 假设 和 备 择 假 设 如 下 。 

Hispm ~p =0 
Hp -ps ¥ 0 

在 选择 用 于 搜集 生产 时 间 数 据 及 检验 假设 的 抽样 方法 时 ， 我 们 考虑 两 种 选择 方案 。 一 种 是 基于 独立 样本 
(indeperident sample) ， 另 一 种 是 基于 匹配 样本 (matched samples ) 。 

1. 独立 样本 设计 : 抽取 工人 的 一 个 简单 随机 样本 ， 样 本 中 的 每 个 工人 使 用 生产 方法 1; 抽取 工人 的 另 一 个 独 
立 的 简单 随机 样本 ， 样 本 中 的 每 个 工人 使 用 生产 方法 2。 总 体 均 值 差 的 检验 使 用 第 10. 2 节 的 方法 。 

2. 匹配 样本 设计 : 抽取 工大 的 一 个 简单 随机 样本 ， 每 个 工人 先 用 一 种 生产 方法 ， 然 后 用 另 一 种 生产 方法 。 两 
种 方法 的 次 序 被 随机 地 指派 给 工人 ， 一 些 工 人 先 使 用 生产 方法 1， 其 他 工大 先 使 用 生产 方法 2。 每 个 工人 提供 一 对 
数据 值 ， 一 个 数值 是 生产 方法 1 的 ， 另 二 个 数值 是 生产 方法 2 的 。 

在 匹配 样本 设计 中 ， 两 种 生产 方法 在 相似 条 件 下 被 检验 〈( 即 由 相同 工人 使 用 ); 因此 这 一 设计 产生 的 抽样 误 
差 往往 比 独立 样本 设计 要 小 。 这 主要 是 因为 在 匹配 样本 设计 中 ， 两 种 生产 方法 被 相同 的 工人 使 用 ， 剔 除了 工人 之 
间 的 差异 。 

为 了 演示 分 析 匹 配 样本 设计 ， 现 在 我 们 利用 匹配 样本 设计 对 两 种 生产 方法 总 体 均值 之 差 进 行 检验 。 现 有 6 名 
工人 组 成 一 个 随机 样本 。6 名 工人 完成 生产 任务 时 间 的 数据 由 表 10-2 给 出 。 注 意 : 每 名 工人 提供 一 对 数据 值 ， 每 
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个 数据 值 对 应 一 种 生产 方法 。 我 们 还 注意 到 ， 最 后 一 列 给 出 了 样本 中 每 名 工人 完成 生产 任务 的 时 间 之 差 d;。 


ne py N10 
一 烈 。 因 此 ， 本 9 6， 方法 1 的 完成 。 方法 2 的 完成 
-0.2,0.5, 0.3, 0.0 和 0.6) 可 用 于 分 析 两 种 生产 方 了 个 。 ”时间 (分 ) 刚刚 半 。 于 扩 (4 
法 总 体 均值 之 差 。 1 6.0 5.4 0.6 
令 jv 表示 工大 总 体 数值 之 差 的 平均 值 。 利 用 该 符 。 2 5.0 时 本 -02 
号 ， 重 新 写 出 下 面 的 原 假设 和 备 择 假设 。 3 7.0 6.5 7. 
H, :, = 4 6. 2 5.9 0.3 
: Hib 5 6.0 6.0 0:0 
F 二 
如 果 于 被 抠 绝 ， 我 们 可 以 得 出 总 体 完成 生产 任务 ”一 外 2 25 
的 平均 时 间 是 不 同 的 结论 。 
符号 d 提示 我 们 : 匹配 样本 给 出 的 是 差 值 的 数据 。 表 10-2 中 6 个 差 值 的 样本 均值 与 样本 标准 差 如 下 。 
dS 人 st 
Fd -dz 


/0. 56 
-a 0.333 


对 于 n=6 名 工人 的 小 样本 ， 我 们 需要 假设 差 值 的 总 体 服从 正 态 分 布 。 该 假设 对 于 运用 :分布 进 行 假设 检验 和 
区 间 估 计 是 必要 的 。 下 面 是 自由 度 为 -1 的 :分 布 的 检验 统计 量 。° 





在 a=0.05 的 显著 性 水 平 下 ， 我们 用 式 (10-9) 来 检验 假设 本 :p=0 和 HH, 50。 将 样本 值 4 =0.30，s, = 
0.335 及 n=6 代 人 式 (10-9)， 我 们 可 以 计算 出 检验 统计 量 的 值 。 
I 
现在 我 们 计算 双 侧 检验 的 p- 值 。 由 于 :=2.20 >0， 所 以 检验 统计 量 位 于 ;分布 的 上 侧 。 因 为 :=2.20， 利 用 自 
由 度 =n-I=6-1=5 的 :分布 表 ， 可 以 得 到 检验 统计 量 右 侧 曲线 下 的 面积 。 自 由 度 为 5 的 1 分 布 表 的 信息 如 下 : 


上 侧面 积 0.2 0.1 0. 05 0. 025 0.01 .0.005 


| 


A 


因此 ， 我 们 看 到 : 右 侧 曲线 下 的 面积 介 于 0.05 到 0. 025 之 间 。 由 于 该 检验 为 双 侧 检验 ， 我们 应 将 0.05 和 
0. 025 增 大 一 倍 ， 从 而 得 到 产值 介 于 0. 10 ~0. 05 的 结论 。p- 值 大 于 a=0.05， 因 此 原 假 设 Hu :ws =0 未 被 拒绝 。 利 
用 Excel 或 Minitab 和 表 10-2 的 数据 ， 我 们 得 到 精确 的 p- 值 =0， 080。 

另外 ,利用 第 8 章 一 个 总 体 的 方法 ， 我 们 能 够 得 到 两 总 体 均 值 之 差 的 区 间 估 计 。 对 于 95% 的 置信 水 平 ， 计算 
结果 如 下 。 


; 值 (自由 度 为 5) 





“除了 答 号 4 的 使 用 外 ,样本 均值 与 样本 标准 差 的 公式 与 本 前 面 用 到 的 一 
足够 大， 总 体 服从 正 态 分 布 的 假设 就 不 必要 了 。 在 第 8 意 和 第 9 章 中 已 经 介绍 了 使 用 分布 的 样本 容量 准则 。 
全 一旦 计 算出 差 信 数 据 ， 匹 配 样 术 的 :分 布 的 步 琶 与 第 8 章 和 第 9 奉 中 措 述 的 一 个 这 体 的 估计 和 候 设 检验 步 






EE 
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A 
0. 335 


9 WE HTX 


v6 
0 30iw0 35 
于 是 ， 边际 误差 为 0.35， 两 种 生产 方法 总 体 均值 之 差 的 95% 的 置信 区 间 为 一 0.05~0.65 分 钟 。 


注释 和 评论 


1. 在 本 节 介绍 的 例子 中 ， 工 人 们 首先 用 第 一 种 生产 方法 完成 生产 任务 ， 然 后 再 用 第 二 种 生产 方法 。 这 个 例子 
说 明了 在 匹配 样本 设计 中 每 个 抽样 元 素 (工人 ) 提供 了 一 对 数据 值 。 使 用 不 同 的 ;- 但 “类 似 的 ”元 素 也 
能 提供 成 对 的 数据 值 。 例 如 ， 某 地 的 一 个 工人 可 能 与 另 一 地 的 一 个 类 似 的 工人 匹配 (基于 年 龄 、 教 育 、 性 
别 、 经 验 等 方面 的 类 似 )。 这 些 成 对 的 工人 可 以 提供 用 于 匹配 样本 分 析 的 差 值 数据 。 

2. 用 匹配 样本 设计 方法 进行 两 总 体 均 值 的 统计 推断 一 般 比 用 独立 样本 方案 更 精确 ， 因 此 是 被 推荐 的 设计 。 然 
而 在 某 些 应 用 中 ， 这 种 匹配 不 能 完成 ， 或 是 与 匹配 相关 的 时 间 过 长 和 费用 过 高 ， 在 这 种 情形 下 ， 还 是 应 当 
使 用 独立 样本 设计 方案 。 





mv 于 = PO we 
六 
/中 Us nia ck \ 
1 ud 本 他 本 24 要 
Sy | 本 co 


方法 2012 年 第 1 季度 末 的 每 膀 股 价 与 2012 年 年 初 的 每 





20. 直面 的 数据 取 自 两 个 总 体 的 匹配 样本 。 股 股 价 之 差 。 利 用 这 些 差 值 的 样本 均值 ， 估 计 每 
股 股价 在 第 1 季度 变化 的 金额 (单位: 美元 )。 
I b. 在 第 一 季度 每 股 股价 总 体 平均 变化 的 95% 的 的 
; 置信 区 间 估 计 是 多 少 ? 
S 24 全球 商务 旅行 协会 报告 了 本 年 度 及 上 一 年 度 国内 商 
3 9 6 务 旅 行 的 机 票 价 格 (1NC. Magazine，2012 年 2 月 )。 
4 12 7 下 表 是 这 两 个 年 度 的 12 个 航班 及 其 国内 机 票 的 样 
5 13 10 本 资料 ， 
6 15 人 
7 15 14 本 年 度 上 一 年 度 
345 315 
a. 计算 每 个 元 素 的 差 值 。 526 463 
b. 计算 d, 420 462 
216 I 206 
c. 计算 标准 差 sa。 285 275 
d. 两 总 体 均 值 之 差 的 点 估计 是 多 少 ? 405 432 
e， 建立 一 个 两 总 体 均 值 之 差 的 95% 的 置信 区 间 。 635 585 
710 650 
应 用 605 545 
22. 由 25 家 公司 组 成 了 一 个 随机 样本 ， 该 样本 记录 了 517 547 
2012 年 年 初 和 2012 年 第 1 季度 末 的 每 股 股 价 570 508 
(《 华 尔 街 日 报 》，2012 年 4 月 2 日 ) 。 在 第 一 季度 ， 二 汪汪 六 -这 着 下 各 ia 
有 多 少 股票 起 到 了 未 来 股市 和 经 济 指标 的 作用 。 a. 提出 假设 并 且 检 验 : 一 年 期 的 国内 商务 旅行 机 
een 票 的 平均 价格 是 否 有 了 一 个 显著 增长 。p- 值 是 
el 多 少 ? 在 a =0.05 的 显著 性 水 平 下 ， 你 的 结论 


a 设 d 表示 第 家 公司 每 股 股价 的 变化 ， 其 中 友 是 是 什么? 
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b. 每 个 年 度 的 国内 商务 旅行 机 票 的 祥 本 平均 价格 ( 续 ) 

+ ?7 “球员 第 一 轮 第 四 轮 
c. 一 年 期 的 国内 商务 旅行 机 票 价格 的 百分比 变化 Ee 全 巡 
是 多 少 ? Kenny Perry 70 69 
A A | Pk -= Aron Price 72 及 
26. 由 20 名 参加 美国 职业 高 尔 夫 球 协会 ( PGA) 比赛 CE 7 70 
四 轮 (最 后 一 轮 ) 的 夺 数 如 下 表 所 示 (Golfiveek， Mike Weir 70 77 
2009 年 2 月 14 日 和 2009 年 2 月 28 日 )。 假 设 你 想 Carl Pettersson 68 70 
确定 ， 对 于 一 次 PGA 巡回 赛 ,， 第 一 轮 的 平均 杆 数 Bo Van Pelt 68 65 
是 否 与 第 四 轮 (最 后 一 轮 ) 的 平均 杆 数 显著 不 同 。 Es . - 
最 后 一 轮 的 比赛 压力 会 使 杆 数 上 升 吗 ? 或 者 ， 增 加 eT js 
高 尔 夫 球员 的 注意 力 反 而 会 使 杆 数 下 降 ? A ES i 


”球员 第 一 轮 ， 第 四 加 _ tp Cp 3 
Michael Letzig 70 72 a. 在 a=0.10 的 显著 性 水 平 下 ， 检验 第 一 轮 和 第 


Scott Verplank 31 72 四 轮 的 总 体 平均 杆 数 在 统计 上 是 否 存 显著 差异 。 
P- 值 是 多 少 ? 你 的 结论 是 什么 ? 





D., A. Points 70 75 

Jerry Kelly 72 71 b. 两 总 体 均 值 之 差 的 点 估计 是 多 少 ? 哪 一 轮 的 总 
Soren Hansen 70 69 体 平均 杆 数 较 少 ? 

志 生 元 款 面 67 67 c. 两 总 体 均 佳之 差 的 90 和 的 置 入 区 闻 和 估计 的 边际 
Bubba Watson 71 67 误差 是 多 少 ? 这 一 置信 区 间 能 用 于 检验 (a) 中 
Reteif Goosen 68 75 


的 假设 吗 ? 请 作出 解释 。 


10.4 两 总 体 比例 之 差 的 推断 


令 p, 表 示 总 体 1 的 比例 ，p, 表 示 总 体 2 的 比例 ， 下 面 我 们 来 讨论 两 总 体 比例 之 差 p, -的 统计 推断 。 为 了 对 
这 个 比例 之 差 作出 推断 ， 我 们 选择 两 个 独立 的 随机 样本 ， 这 两 个 样本 分 别 由 总 体 1 中 的 去 个 单位 和 总 体 2 中 的 元 
个 单位 组 成 。 


pi -的 区 间 估 计 


在 下 面 的 例子 中 ， 我 们 将 介绍 如 何 计算 边际 误差 以 及 如 何 建立 两 总 体 比 例 之 差 的 区 间 估 计 。 

一 家 报税 公司 想 要 比较 该 公司 两 个 地 区 办 事 处 的 工作 质量 。 在 每 个 办 事 处 ， 随 机 抽取 准备 报税 的 申报 单 样 
本 ， 并 对 申报 单 的 准确 性 进行 核实 ， 该 报税 公司 可 以 估计 出 每 个 办 事 处 准备 报税 的 申报 单 的 出 错 比例 。 特 别 值得 
注意 的 是 这 些 比例 之 差 。 


10. 4.1 


一 一 总 体 1 (办 事 处 1) 的 出 错 申 报 单 的 比例 
一 一 总 体 2 (办 事 处 2) 的 出 错 申 报 单 的 比例 
一 一 总 体 1 的 简单 随机 样本 的 样本 比例 
Ps 一 一 总 体 2 的 简单 随机 样本 的 样本 比例 
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志 是 。 两 总 体 比 例 之 差 的 点 估计 量 是 两 个 独立 的 简单 随机 样本 的 样本 比例 之 差 。 
与 其 他 的 点 估计 量 一 样 ， 如 果 我 们 重复 地 抽取 两 个 独立 的 随机 样本 ， 则 点 佑 计量 p, -p, 有 一 个 反映 它 所 有 可 
能 值 的 抽样 分 布 。 这 个 抽样 分 布 的 均值 为 p, -p;,， 标 准 误差 如 下 : 







如 果 样 本 容量 足够 大 ,使 得 np,，n,(1 -pi)， nup;: 和 n,(1--p,) 都 大 于 或 等 于 5， 则 p, -p 的 抽样 分 布 近似 

服从 正 态 分 布 。 2 

如 前 所 述 ， 区 间 佑 计 可 由 点 估计 加 减 边 际 误 差 给 出 。 在 两 总 体 比 例 之 差 的 估计 中 ,区间 估计 将 采取 以 下 
形式 : 

-一 一 Pi-= 疡 土 边 际 误差 

由 于 pi -pz 的 抽样 分 布 近似 服从 正 态 分 布 ， 我 们 可 用 zo; .作为 边际 误差 。 但是， 因为 两 总 体 比 例 p, 和 p， 
未 知 ， 所 以 式 (10-11) 给 出 的 ex .不 能 直接 使 用 。 我 们 用 样本 比例 成 、 亏 来 估计 p, 和 p,， 得 到 的 边际 误差 
如 下 。 : 


边际 误差 = zx 
两 总 体 比 例 之 差 区 间 估 计 的 一 般 形式 如 下 。 


(10-12) 













回 到 报税 公司 的 例子 ,我 们 得 到 两 个 办 事 处 的 独立 简单 随机 样本 的 信息 如 下 。 
: 办 处 1 Wi ds 办 事 处 2 
ni =250 rn =300 
出 错 申报 单数 =35 





1 
| 


事 处 2 多 0.05 或 5%。 
现在 利用 式 〈10-13) 计算 边际 误差 及 两 总 体 比 枫 之 差 的 区 间 估 计 。 对 于 90% 置信 区 间 ，z。s = zoos =1. 645， 
于 是 有 


pi(1 一 成 a -及 ) 
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了 是， 过 际 刘 大 为 0.045，90% 阐 旺 革 区 则 为 【0.665: .095)。 


10.4.2 站 -Pp 的 假设 检验 


现在 我 们 考虑 两 总 体 比 例 之 差 的 假设 检验 。 我 们 把 重点 放 在 两 总 体 比 例 无 差异 的 检验 上 。 在 这 种 情况 下 ， 假 
设 检 验 有 如 下 三 种 形式 ， S Rr 
wed : Ho:P -pi 宇 0 Ho :p, -Pp, 0 Ho :p, -p=0 p 
H,:p, 0 pe 0 Ho Dw En 
我 们 假定 作为 一 个 等 式 的 原 假设 H, 为 真 时 ;有 pi -p=0， 也 就 是 说 两 总 体 比例 是 相等 的 ， 即 p, =p;s 
“我 们 将 以 点 信 计 量 去 -元 的 抽样 分 布 作为 检验 统计 量 的 基础 。 在 式 (10- 11) 中 ,我 们 已 经 给 出 p, - 丈 的 标 


准 误差 为 








在 假定 作为 一 个 等 式 的 Ho 为 真 的 情况 下 ， 总 体 比例 相等 且 p, =p, =p。 这 时 ，o; _; 变 为 








下 ee a 


eo 人 


rim Wh 
me 





这 个 p 的 合并 估计 和 量 (pooled estimator of p) 是 p, 和 p, 的 加 权 平均 值 。 
用 五 代替 式 〈10 -14) 中 的 p, 我 们 可 以 得 到 p, -Pp, 的 标准 误差 的 估计 。 检 验 统计 量 使 用 标准 误差 的 这 个 估 
计 。 关 于 两 总 体 比例 之 差 的 假设 检验 的 检验 统计 量 ， 其 一 般 形式 是 点 估计 量 除 以 ,cf ;的 一 个 佑 计 。 








mpi、m (1-p1)、nsp; 和 n，(1 -p,) 全 都 大 于 或 等 于 5 的 大 样本 情况 。 
让 我 们 仍 以 报税 公司 为 例 ， 并 假设 该 公司 希望 应 用 假设 检验 来 确定 两 个 办 事 处 之 间 的 出 错 比例 是 否 不 同 。 双 





Hi:pi ~ ps = 
H, :ip; = ,pa FO 
如 果 也 被 拒绝 ， 该 公司 就 可 以 得 出 两 个 办 事 处 出 错 率 不 同 的 结论 。 我 们 的 显著 性 水 平 为 w =0. 10。 
根据 先前 收集 的 样本 数据 ， 从 办 事 处 1 抽取 m =250 份 申报 单 ， 得 到 =0. 14; 从 办 事 处 2 抽取 n, =300 份 申 
报 单 ， 得 到 p, =0.09。 接 着 计算 bp 的 合并 估计 量 。 









用 0 作为 两 个 被 关注 量 之 间 的 差 。 M1 症 
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- mp+rnp, 250 x0;14+300 x0.09 
Nn +n 人 250 + 300 a ee 
利用 这 个 合并 估计 量 和 样本 比例 之 差 ， 检 验 统计 量 的 值 如 下 。 
Di 一刀 0.14 -0.09 


计算 这 一 双 侧 检验 的 p- 值 ， 我 们 首先 注意 到 ; z =1. 85 位 于 标准 正 态 分 布 的 上 侧 。 利 用 标准 正 态 分 布 表 ， 我 
们 发 现 z=1. 85 右 侧 曲线 下 的 面积 为 1. 000 0 -0.9678=0.0322。 对 于 双 侧 检验 ， 将 这 个 面积 乘 以 2， 我 们 得 到 p- 
值 =2 x0.,0322=0.0644。 由 于 p- 值 小 于 a=0.10, 在 0.10 的 显著 性 水 平 下 我 们 拒绝 H,。 于 是 ， 报 税 公司 可 以 得 
出 两 个 办 事 处 出 错 率 不 同 的 结论 。 这 个 假设 检验 的 结论 与 前 面 两 个 办 事 处 总 体 出 错 率 之 差 的 区 间 估 计 为 〈0. 005， 


0. 095) 是 一 致 的 ， 办 事 处 1 的 出 错 率 更 高 一 些 。 






方法 
六 28. 考虑 下 面 的 取 自 两 个 总 体 的 两 个 独立 样本 的 数据 。 
样本 1 样本 2 
nl =400 ny =300 
万 =0.48 ps =0. 36 


a. 两 总 体 比 例 之 差 的 点 估计 是 多 少 ? 
b. 建立 两 总 体 比例 之 差 的 90% 的 置信 区 间 。 
c. 建立 两 总 体 比 例 之 差 的 95% 的 置信 区 间 。 


应 用 


30， 


32. 


《商业 周刊 》/ 哈 里 斯 调查 就 未 来 的 经 济 前 景 向 大 
公司 的 一 些 高 级 经 理 进行 了 一 次 问卷 调查 。 一 个 
问题 是 “你 认为 你 的 公司 在 未 来 12 个 月 内 ， 全 日 
制 雇员 的 人 数 会 增加 吗 ?” 在 这 次 调查 中 ，400 名 
经 理 中 有 220 人 回答 “是 "， 而 在 去 年 的 调查 中 ， 
400 名 经 理 中 有 192 人 回答 “是 ”。 建 立 这 两 个 时 
点 比例 之 差 的 95% 的 置信 区 间 人 估计。 你 对 该 区 间 
估计 的 解释 是 什么 ? 
美国 汽车 协会 (AAA) 的 一 项 研究 调查 了 男性 还 
是 女性 更 可 能 停车 问 路 的 问题 (AAA，2006 年 1 
月 )。 研 究 中 涉及 以 下 问题 “如 果 你 和 你 的 配偶 
一 起 驾车 出 行 迷 路 了 ， 你 会 停 下 来 问 路 吗 ?”AAA 
采用 的 一 份 具有 代表 性 的 样本 数据 显示 ，811 名 女 
性 中 有 300 名 回答 她 们 会 停车 问 路 ， 而 750 名 男性 
中 有 255 名 回答 他 们 会 停车 问 路 。 
a AAA 研究 的 假设 是 : 女性 更 可 能 回答 她 们 会 停 
车 问 路 。 建 立 这 一 研究 的 原 假 设 和 备 择 假设 。 
b。 愿意 停车 问 路 的 女性 的 比例 是 多 少 ? 


34. 


36,. 





ce. 愿意 停车 问 路 的 男性 的 比例 是 多 少 ? 

d. 在 a =0.05 的 显著 性 水 平 下 ， 检 验 该 假设 。 
声 值 是 多 少 ? 你 预计 AAA 从 这 项 研究 中 会 得 出 
什么 结论 ? 

《商业 周刊 》 报 道 ， 不 同年 龄 组 的 俄罗斯 人 对 生活 

在 俄罗斯 的 喜欢 程度 似乎 不 同 (《 商 业 周 刊 》， 

2008 年 3 月 10 日 )。 下 面 的 样本 数据 与 《商业 周 

刊 》 的 调查 结果 是 一 致 的 ， 这 些 数 据 反 映 了 不 同 

年 龄 组 的 人 对 “你 是 否 豆 欢 生活 在 俄罗斯 ”这 一 

问题 的 回答 。 


俄罗斯 人 的 年 龄 组 
17 ~26 岁 40 岁 以 上 
样本 300 260 
回答 “是 ” 192 117 


a 17 ~26 岁 的 俄罗斯 人 人， 喜欢 生活 在 俄罗斯 的 总 
体 比 例 的 点 估计 是 多 少 ? 

b. 40 岁 以 上 的 俄罗斯 人 ， 训 欢 生活 在 俄罗斯 的 总 
体 比 例 的 点 估计 是 多 少 ? 

c. 建立 17 ~26 岁 年 轻 的 俄罗斯 人 和 40 岁 以 上 年 长 
的 俄罗斯 人 ， 喜 欢 生活 在 俄罗斯 的 总 体 比 例 之 
差 的 95% 的 置信 区 间 估 计 。 

冬季 游客 对 于 佛罗里达 州 西 南部 地 区 的 经 济 非常 重 

要 。 酒 店 入住 率 是 一 个 经 常 被 报道 的 计量 游客 数量 和 

游客 活动 的 依据 ( Naples Daily News,，2012 年 3 月 2 

日 )。 连续 两 年 2 月 份 的 酒店 入 住 数据 如 下 表 所 示 。 

上 年 度 


1458 
1800 


本 年 度 
1470 
1750 


人 住房 间 
总 房间 
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a. 提出 能 用 来 确定 在 这 连续 的 两 年 里 ， 酒 店 入 
住 率 是 否 有 了 显著 增长 的 假设 。 

b. 每 年 酒店 入 住 率 的 点 估计 是 多 少 ? 

c. 在 Qa=0.05 的 显著 性 水 平 下 ， 你 假设 检验 的 结 


ET 


论 是 什么 ? p- 值 是 多 少 ? 
d. 在 这 连续 的 两 年 里 ,酒店 入 住 率 变 化 的 95% 的 
置信 区 间 估 计 。 你 认为 ， 该 地 区 的 官员 对 这 一 
结果 会 感到 很 满意 吗 ? 













| We 


接 下 来 我 们 讨论 了 匹配 样本 设计 的 两 总 体 均 值 之 
差 的 统计 推断 。 -在 匹配 样本 设计 中 ， 每 个 元 素 提 供 一 
对 数据 值 ， 每 一 个 总 体 有 一 个 。 然 后 在 统计 分 析 中 逢 
用 这 些 成 对 数据 值 之 差 。 因 为 在 大 多 数 情形 下 ， 匹 配 
样本 方法 会 提高 估计 的 精确 度 ， 因 此 匹配 样本 设计 通 
常 优 于 独立 样本 设计 。 

最 后 ， 讨 论 了 关于 两 个 总 体 比 例 之 差 的 区 闻 估 计 
与 假设 检验 。 用 于 分 析 两 个 总 体 比 例 之 差 的 统计 方法 
类 似 于 分 析 两 个 总 体 均 值 之 差 的 统计 方法 。 


和 


与 另 一 个 样本 的 对 应 数据 值 相 匹配 的 样本 。 


本 章 我 们 讨论 了 涉及 两 个 总 体 建立 区 间 估 计 及 进 
行 假设 检验 的 方法 。 首 先 ， 我 们 阐述 了 在 抽取 简单 独 
立 随 机 样本 的 情况 下 ， /如何 进行 关于 两 个 总 体 均值 之 
差 的 推断 。 我们 首先 考虑 了 假定 总 体 标准 差 ri 和 os 已 
知 的 情况 。 标 准 正 态 分 布 z 可 用 来 建立 区 间 估 计 和 假 
设 检验 的 检验 统计 量 。 然 后 ， 我 们 考 嘎 了 总 体 标 准 差 
未 知 并 由 样本 标准 差 sy 和 s 估 计 的 情形 。 在 这 种 情况 
下 ， 可 用 t 分 布 来 进行 区 间 估 计 和 作为 假设 检验 的 检 
验 统计 量 。 





关键 术语 
independent sample 独立 样本 取 自 两 个 总 体 的 样 
本 ,抽取 的 方式 是 ; 组 成 一 个 样本 的 元 素 与 组 成 另 pooled estimator of p p 的 合并 估计 量 总体 比例 的 
一 个 样本 的 元 素 是 独立 选取 的 。 一 个 估计 量 ， 它 是 两 个 独立 样本 的 点 佑 计量 的 加 权 
matched sample ”匹配 样本 一 个 样本 的 每 个 数据 值 平均 数 。 








ERA 2 
两 个 总 体 均值 之 差 的 点 估计 量 后 =/ 态 的 假设 检验 的 检验 统计 量 : or 和 gg 未知 
X1 一 %, (10-1 ) 二 (2 — %) nh (10 8) 
x -元 的 标准 误差 “ 
2 2 Re 
Il 0 RB 
ee Ce 匹配 样本 假设 检验 的 检验 统计 量 
两 个 总 体 均 值 之 差 的 区 间 估 计 ; oi 和 oq, 已 知 dpe C10-9) 
庆生 二 大 a 让 六 oi (10-4) s/n 
A 两 总 体 比 例 之 差 的 点 估计 量 
M4 -J 的 假设 检验 的 检验 统计 量 : og 和 og, 已 知 二 (10-10) 
et hee) (10-5) Pi =Py 的 标准 误差 


J Ip,(1 — Ry 
kr 十 本 qi 二 三 Pi 人 - p1) .Ph = Pp2) (10-11) 
1 2 





入 二 及 "= 二 + 十 (10-6 ) a pi(l 一 已) ,Bll - Pp;) (10-13) 
利用 两 独立 随机 样本 的 上 分 布 的 自由 度 .Ps 
5 E 2 1 2 ” i 2 
+ 2 1 ] 
df = 7 (10-7) a 





当 p, =p; =p 时 ,pp 的 合并 估计 量 
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区 Pi + nsp. 
p 二 Nipi np CW15) 


pt -Ps 的 假设 检验 的 检验 统计 量 






补充 练习 pe 
38，Safegate Foods 公司 正在 重新 设计 其 在 企 美 各 地 超 
市 的 结账 通道 并 提出 了 两 种 设计 方案 。 在 装 有 两 
种 新 系统 的 两 家 商店 分 别 对 顾客 的 结账 时 间 进 行 
了 测试 ， 得 到 了 以 下 汇总 数据 。 


系统 A 系统 B 
po =120 na =100 
| =4. 1 分 钟 x2 =3.4 分 钟 
ri =2.2 分 钟 oa =1.5 分 钟 


在 0.05: 的 显著 性 水 平 下 ， 检 验 两 种 系统 的 总 
体 平均 结账 时 间 是 否 不 同 。 哪 一 个 系统 更 好 ? 


0. 互助 天 金 分 为 有 佣金 和 无 佣金 两 种 类 型 。 有 佣金 


基金 要 求 投资 者 以 在 基金 中 投资 金额 的 一 个 百 分 
比 为 依据 , 彼 付 加 盟 费 。 无 佣金 基 奔 则 没有 这 个 加 
本 费 [ 一 些 爹 融 顾 间 认为， 因为 有 佣 釜 的 豆 助 基金 
比 无 佣金 的 互助 基金 获得 更 高 的 平均 收益 率 ,， 因 
此 有 个 金 的 互助 基金 支付 额外 费用 可 能 是 值得 的 。 
分 别 抽 取 30 个 有 佣金 的 互助 基金 和 30 个 无 佣金 的 
互助 基金 各 组 成 一 个 样本 。 采集 的 数据 是 5 年 期 基 
金 的 年 收益 率 。 数据 保存 在 未 书 所 附 光 盘 名 为 Mu- 
tual 的 数据 集 文件 中 。 前 5 个 有 佣金 的 互助 基金 和 


前 5 个 无 佣金 的 互助 基金 的 数据 如 下 。 

有 佣金 的 互助 基金 收益 率 
American national Growth 15: 51 
Arch Small Cap Equity 14. 57 
Bartlett Cap Basic WA 
Calvert World International 10. 31 
Colonial Fund A 16. 23 

无 佣金 的 互助 基金 收益 率 
Amana Income Fund 13. 24 
Berger One Hundred 12. 13 
Columbia Intemational Stoek .了 7 
Dodge & Cox Balanced 16;06 
Evergreen Eund 17.61 


a 写 出 HH 和 HH,， 使 得 拒绝 Ho 会 得 出 结论 : 5 年 期 
的 有 佣金 互助 基金 有 较 高 的 平均 年 收益 率 。 
b. 用 数据 集 Mutual 中 的 60 个 互助 基金 进行 假设 检 


42. 


pr -P: 
Fr 
1 


2 


(10-16) 





验 。p- 值 是 多 少 ? 在 m=0.05 的 显著 性 水 平 下 ， 
你 有 何 结 论 ? 

2009 年 年 初 ， 经 济 正在 经 历 一 次 衰退 。 但 这 次 豪 
退 对 股票 市 场 的 影响 如 何 呢 ? 由 15 个 公司 组 成 的 
一 个 样本 ， 样 本 中 的 每 个 公司 在 1 月 1 日 各 4 月 30 
日 的 每 股 股 票 的 价格 如 下 所 示 ( 《华尔街 日 报 》， 
2009 年 5 月 1 日)。 


4 4 月 30 

和 ee sy 

美国 实用 材料 公司 10. 13 12. 21 
纽约 银行 28. 33 25. 48 
雪佛兰 73. 97 66. 10 
思科 系统 公司 16. 30 19. 32 
可 口 可 乐 45. 27 43. 05 
康 卡 斯 特 16. 88 15. 46 
福特 汽车 2. 29 5.98 
通用 电气 16. 20 12. 65 
强生 59. 83 52. 36 
摩根 大 通 31. 53 33. 00 
微软 19. 44 20. 26 
甲骨 文 17.73 19. 34 
辉瑞 公司 7 13. 36 
菲 利 善 英里 斯 43. 51 36. 18 
宝洁 61. 82 49. 44 


a 四 个 月 来 每 股 股票 的 平均 价格 有 什么 变化 ? 

b. 建立 每 股 股 票 平均 价格 变化 的 90% 的 置信 区 间 
估计 。 解 释 这 一 结果 。 

c， 四 个 月 来 每 股 股票 平均 价格 变化 的 百分比 是 多 少 ? 

d. 如 果 同 样 的 百分比 变化 出 现在 随后 的 四 个 月 以 
及 再 以 后 的 四 个 月 ，2009 年 年 底 的 每 股 股票 平 
均 价 略 将 会 是 多 少 ? 


. 一 家 大 型 汽车 保险 公司 抽取 了 单身 与 已 婚 男性 保 


险 客 户 的 样本 ， 并 记录 了 他 们 在 过 去 的 三 年 内 保险 
索赔 的 次 数 。 


单身 保险 客户 己 婚 保险 客户 
ni =400 ny =000 
保险 索赔 次 数 =76 保险 索赔 次 数 = 90 


a. 在 a=0.05 的 显著 性 水 平 下 ， 检 验 单身 与 已 婚 
保险 客户 的 索赔 率 之 间 是 和 否 存在 差异 。 

b. 建立 两 总 体 比例 之 差 的 95% 的 置信 区 间 。 

. 预计 在 2008 年 3 月 期 间 ， 南 卡 罗 莱 纳 州 Myrtle 

Beach 的 公寓 假期 租用 率 将 会 上 升 (The Sun 

News,，2008 年 2 月 29 日 )。 保 存在 本 书 所 附 

光盘 名 为 Oeeupancy 文件 中 的 数据 来 源 于 报纸 ， 
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月 和 2008 年 3 月 的 第 一 周 ， 一 个 度假 公寓 随 

机 样本 的 已 租 出 的 单元 和 未 租 出 的 单元 的 

资料 。 

a, 估计 在 2007 年 3 月 和 2008 年 3 月 的 第 一 周 ， 已 
租 出 单元 的 比例 。 

b， 建立 比例 之 差 的 95% 的 置信 区 间 。 

c 根据 你 的 研究 结果 ， 与 前 一 年 同期 相 比 ，2008 


你 可 以 复制 使 用 。 这 些 数据 显示 ， 在 2007 年 3 年 3 月 的 租用 率 是 否 上 升 了 ? 





Par 公司 是 一 家 高 尔 夫 球 设备 的 主要 制造 商 。 管 理 人 员 认 为 引进 某 种 耐 磨 损 、 寿 命 更 长 的 高 尔 夫 球 会 使 Par 公 
司 的 市 场 占有 率 增加 ， 因 此 为 了 抗 磨损 ， 延 长 使 用 寿命 ，Par 的 研究 小 组 设计 了 一 种 带 有 涂 层 的 新 型 高 尔 夫 球 。 
对 涂 层 的 测试 已 有 获得 成 功 的 迹象 。 

一 位 研究 者 关注 涂 层 对 击 球 距离 的 影响 。Par 希望 新 型 耐 殿 的 高 尔 夫 球 与 目前 使 用 的 高 尔 夫 球 有 相同 的 击 球 
距离 。 为 比较 两 种 高 尔 夫 球 的 击 球 距离 ， 各 取 40 只 球 来 做 距离 测试 。 为 了 能 将 两 种 型 号 的 高 尔 夫 球 平均 距离 的 
差异 归 因 于 两 种 球 制 作 方法 的 不 同 。 栓 验 是 用 机 械 击 球 装置 来 完成 的 。 检 验 结果 如 下 ， 其 中 距离 是 按 最 接近 的 整 
数码 测量 。 这 些 数 据 可 供 我 们 使 用 ， 它 们 被 保存 在 本 书 的 网 站 上 。 





型 号 型 号 
当前 新 型 当前 新 型 当前 新 型 
264 277 28] 283 
26] 269 274 250 
267 263 273 253 
272 266 263 260 
258 262 275 270 
283 251 267 263 
258 262 279 261 
266 289 274 255 
259 286 276 263 
270 264 262 279 
管理 报告 


1. 提出 并 介绍 Par 公司 用 于 比较 目前 使 用 的 和 新 型 的 高 尔 夫 球 击 球 距 离 的 假设 检验 的 基本 原理 。 

2. 分 析 数 据 ， 得 出 假设 检验 的 结论 。 检 验 的 Pp- 值 是 多 少 ? 你 对 Par 公司 有 何 建 议 ? 

3. 对 每 种 型 号 的 数据 给 出 描述 性 的 统计 汇总 。 

4. 每 种 型 号 的 总 体 平均 击 球 距离 的 95% 置信 区 间 是 多 少 ? 两 总 体 均值 差 的 95% 的 置信 区 间 是 多 少 ? 
5. 你 认为 需要 更 大 的 样本 容量 和 对 高 尔 夫 球 做 更 多 的 检验 吗 ? 请 讨论 。 
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实践 中 的 统计 : 美国 审计 总 署 
11.1 一 个 总 体 方差 的 统计 推断 
11.2 两 个 总 体 方差 的 统计 推断 
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实践 中 的 统计 
美国 审计 总 署 。 
华 左 顿 特区 
美国 审计 总 署 (GAO) 是 联邦 政府 立法 机 关 的 一 个 独 Ho = 中 
立 的 、 非 官方 的 审计 机 构 。GAO 的 稳 查 员 们 确定 当前 的 、 we 


拟 议 的 联邦 计划 的 有 效 性 。 为 了 履行 他 们 的 职责 ， 移 查 员 
们 必须 精通 记录 复审 、 立 法 调查 以 及 统计 分 析 技术 。 

在 二 林业 例 中 ; GAO 的 稳 查 员 们 对 一 个 净化 全 美 
河流 湖泊 的 内 务 部 计划 进行 研究 。 作 为 该 计划 的 一 部 
分 ， 联 邦 政 府 的 拨款 要 面向 全 美 范围 内 的 小 城市 。 国 
会 要 求 GAO 确定 该 计划 执行 的 效率 。 为 此 ，GAO 检查 
了 相关 记录 并 走访 了 几 家 废物 处 理 厂 。 

GAO 审计 的 目的 之 一 是 确认 这 些 工厂 的 流出 物 
(治理 后 的 污水 ) 达到 一 定 的 标准 。 舅 外 ， 他 们 复查 了 
样本 的 会 氧 量 、pH 值 和 流出 物 中 是 浮 固 体 的 数量 。 该 
计划 的 要 求 之 一 是 在 每 个 工厂 进行 日 常 的 各 种 检验 ， 
并 将 收集 的 数据 定期 送 往 各 州 的 工程 部 门 。GAO 经 过 
对 数据 的 审查 ， 得 以 确定 流出 物 的 各 种 特性 是 否 在 可 
接受 的 限度 之 内 。 

例如 ， 和 仔细 测 定 流出 物 的 平均 pH 值 。 另 外 ， 需 要 
复查 上 报 的 pH 值 的 方差 。 关 于 流出 物 总 体 的 pH 值 的 
方差 进行 如 下 的 假设 检验 。 


在 本 检验 中 ，ei 表示 一 个 运行 良好 的 工厂 其 pH 
值 所 预期 的 总 体 方差 。 对 菜 个 特定 的 工厂 ， 原 假设 被 
拒绝 了 ， 进 一 步 的 分 析 表 明 该 厂 p 旦 信 的 方差 显著 地 小 
二 正常 值 。 

称 查 员 们 到 这 个 特定 的 工厂 检查 测量 设备 并 与 该 
厂 的 管理 者 讨论 有 关 统 计数 字 。 竹 查 员 们 发 现 因为 操 
作 员 不 知 如 何 操 作 而 并 未 使 用 测量 设备 。 取 而 代 之 的 
是 ， 某 个 工程 师 告 诉 操作 员 什 么 料 的 pH 值 是 可 接受 
的 ， 然 后 操作 员 在 没有 做 任何 检验 的 情况 下 简单 地 记 
录 了 类 似 的 数值 。 该 厂 异 常 低 的 方差 导致 拒绝 H,。 
GAO 怀疑 其 他 工厂 世 存 在 类 似 问 题 ， 便 建议 对 操作 员 
进行 培训 ， 以 达到 改进 收集 污染 控制 数据 方式 的 目的 。 

在 本 章 中 ， 称 将 学 会 如 何 对 一 个 和 两 个 总 体 方差 
进行 统计 推断 。 我 们 将 介绍 两 种 新 的 分 布 : XX 分 布 和 
下 分 布 ， 这 两 种 分 布 可 以 用 于 对 总 体 方 差 进行 区 间 佑 
计 及 假设 检验 。 


在 前 面 四 章 中 ， 我 们 介绍 了 关于 总 体 均 值 和 总 体 比 率 的 统计 推断 方法 。 在 本 章 中 我 们 把 讨论 扩展 到 总 体 方差 
的 统计 推断 问题 。 关 于 方差 能 够 为 重要 决策 提供 信息 的 案例 ， 考 虑 灌 装 液体 洗涤 剂 的 生产 过 程 。 该 生产 过 程 的 灌 
装机 械 经 过 调整 ， 使 得 每 个 容器 的 平均 灌 装 量 为 16 兽 司 。 尽 管 16 痊 司 的 平均 值 是 所 期 望 的 , 但 是 灌 装 量 的 方差 
也 是 很 关键 的 。 这 就 是 说 ， 即 使 灌 装 机 械 严 格 地 调整 到 16 矢 司 的 平均 值 ， 我 们 也 不 能 指望 每 个 容器 的 灌 装 量 恰 
好 是 16 益 司 。 抽 取 一 些 容器 组 成 样本 ,我们 可 以 计算 出 容器 中 液体 灌 装 量 的 样本 方差 ， 这 个 数值 可 以 作为 灌 装 
生产 过 程 中 容器 灌 装 量 的 总 体 方差 的 一 个 估计 值 。 如 果 样 本 方差 适度 ， 生 产 过 程 可 以 继续 。 然 而 ， 如 果 样 本 方差 
过 大 ， 即 使 均值 恰好 是 16 释 司 ， 也 可 能 会 发 生 过 度 灌 装 或 灌 闭 不 足 的 情况 ， 在 这 种 情形 下 ， 灌 装机 械 将 被 调整 
以 减少 容器 灌 装 量 的 方差 。 

在 第 11. 1 节 我 们 考虑 一 个 总 体 方 差 的 统计 推断 。 随 后 ， 我 们 将 讨论 对 两 个 总 体 的 方差 进行 推断 的 步 又。 


11. 1 一 个 总 体 方差 的 统计 推断 


样本 方差 


> ED AE (11-1) 


nl 


是 总 体 方差 o 的 点 估计 。 在 用 样本 方差 作为 推断 总 体 方差 的 基础 时 ，(n -1)s /ve 的 抽样 分 布 起 到 了 很 大 作 


名“ 作者 感谢 美国 审计 总 署 的 Art Foreman 先生 和 Dale Ledman 先生 ， 他 们 为 “实践 中 的 统计 ”提供 了 本 案例 。 
思 “在 许多 制造 业 的 应 用 中 ， 控 制 过 程 的 方差 对 保证 产品 质量 是 非常 重要 的 。 


252 商务 与 经 济 统计 


用 ， SR 





图 11- 1 显示 了 (n- 1 的 抽样 分 布 的 几 种 可 能 的 形式 。 
因为 只 要 容量 为 ”的 简单 随机 样本 取 自 正 态 总 体 ， 则 (=-1)syxe 的 抽样 分 布 就 服从 x 分 布 ， 我们 可 以 利用 
X 分 布 对 一 个 总 体 的 方差 建立 区 间 估 计 和 进行 假设 检验 。 


11. 1. 1 ”区间 估计 

闫 二 亲 述 如 何 利用 太 分 布 建立 总 体 方差 ez 的 置信 区 间 估 计 ， 候 定 我 们 试图 估计 本 章 开始 时 提 到 的 产品 灌 装 过 得 
的 总 体 方差 。 抽 取 了 20 个 容器 组 成 一 个 样本 ， 得 到 灌 装 量 的 样本 方差 * =0. 002 5。 但 是 ， 我 们 知道 ， 由 20 个 容器 组 
成 的 样本 无 法 提供 生产 过 程 中 容器 灌 装 量 的 总 体 方差 的 精确 值 。 因 此 ， 我 们 考虑 对 总 体 方差 进行 区 间 估 计 。 

“ 我们 用 符号 表示 XX 分 布 右 侧面 积 或 概率 为 a 的 数值 。 例 如 ， 对 图 11-2 所 示 的 自由 度 为 19 的 XY 分 布 ， 
jauxn =32. 852 表明 有 2.5% 的 X 分 布 值 落 在 32. 852 右 侧 ; 加 ws =8.907 表明 有 97. 5% 的 Xx 分 布 值 落 在 8.907 的 右 
侧 。 对 于 X 分 布 的 面积 表 或 概率 表 很 容易 使 用 。 参 见 表 11-1， 可 知 自 由 度 为 19 的 XY 分 布 的 这 些 值 是 正确 的 ( 表 
中 第 19 行 ) 。 附 录 B 中 的 表 3 提供 了 更 多 的 X 分 布 值 。 





0.95 的 可 能 值 
ye 0 8907 PT 本 
世 罗 s75 本 Xoas 
1 a De 的 抽样 分 布 分 布 ) 的 例子 ”图 11-2 自由 度 为 19 的 XY 分 布 





表 11:1 ,XxX 分 布 表 节 选 a 


自由 度 0. 025 0. 01 





0.99 0. 975 
请 0. 000 0. 001 5, 024 6. 635 
2 0.020 0. 05h 6 7,378 9. 210 
3 "0 33 0. 216 0. 352 0. 584 6. 251 7. 815 9.348 11. 345 


日 太 分布 以 取 自 正 态 总 体 的 抽样 为 基础 。 
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( 续 ) 
各 喜庆 上 侧面 积 
0. 99 0. 975 0. 95 0. 90 0. 10 0. 05 0. 025 0., 01 

4 0. 297 0.484 0.711 1. 064 7.779 9, 488 11. 143 13. 277 
5 0. 554 0.831 1. 145 1.610 9. 236 11. 070 12. 832 15. 086 
6 0. 872 1. 237 1. 635 2. 204 10. 645 12. 592 14. 449 16. 812 
7 1. 239 1. 690 2. 167 2. 833 12.017 14. 067 16.013 18. 475 
8 1. 647 2. 180 2.733 3. 490 13.362 15. 507 17. 535 20. 090 
9 2. 088 2.700 3. 325 4. 168 14. 684 16. 919 19. 023 21. 666 
10 2. 558 3.247 3. 940 4. 865 15. 987 18. 307 20.483 23. 209 
11 3. 053 3.816 4. 575 5.578 17. 275 19. 675 21.920 24. 725 
12 3.571 4.404 5. 226 6. 304 18. 549 21. 026 23. 337 26.217 
13 4.107 5. 009 5. 892 7.041 19. 812 22. 362 24. 736 27. 688 
14 4. 660 5.629 6.571 7.790 21. 064 23. 685 26. 119 29; 141 
15 5. 229 6. 262 7. 261 8. 547 22. 307 24, 996 27.488 30. 578 
16 5. 812 6. 908 7.962 9. 312 23. 542 26. 296 28. 845 32. 000 
17 6. 408 7.564 8.672 10. 085 24. 769 27. 587 30. 191 33. 409 
18 7. 015 8.231 9. 390 10. 865 25. 989 28. 869 31. 526 34. 805 
19 7. 633 8. 907 10. 117 11.651 27. 204 30. 144 32. 852 36. 191 
20 8. 260 9. 591 10. 851 12.443 28. 412 31.410 34. 170 37. 566 
21 8. 897 10. 283 11. 591 13. 240 29. 615 32.671 35.479 38. 923 
22 9. 542 10. 982 12. 338 14.041 30. 813 33. 924 36. 78] 40. 289 
23 10. 196 11. 689 13. 091 14. 848 32. 007 35. 172 38.076 41. 638 
24 10. 856 12. 401 13. 848 15. 659 33. 196 36. 415 39. 364 42. 980 
25 11. 524 13. 120 14. 611 16. 473 34. 382 37. 652 40. 646 44. 314 
26 12. 198 13. 844 15. 379 17. 292 35. 563 38. 885 41. 923 45. 642 
27 12. 878 14. 573 16. 151 18. 114 36. 741 40. 113 43. 195 46. 963 
28 13. 565 15. 308 16. 298 18. 939 37.916 41. 337 44.461 48. 278 
29 14. 256 16. 047 17. 708 19. 768 39. 087 42. 557 45. 722 49. 588 
30 14. 953 16. 791 18. 493 20. 599 40. 256 43.773 46. 979 50. 892 
40 22. 164 24. 433 26. 509 29. 051 51. 805 55. 758 59. 342 63. 691 
60 37. 485 40. 482 43. 188 46. 459 74. 397 79. 082 83. 298 88. 379 
80 53. 540 57. 153 60. 391 64. 278 96. 578 101. 879 106. 629 112. 329 


一 


70. 065 74.222 77. 929 82. 358 118. 498 124. 342 129. 561 135, 807 
注 ; 更 完整 的 XY 分 布 表 见 附录 B 中 表 B-3。 


从 图 11-2 中 可 以 看 出 ， 有 0. 95 或 站台 的 X 分 布 值 位 于 X04 与 如 ms 之 间 。 这 就 是 说 ,满足 条 件 Xows < =< 
Xo.ms 的 X 分 布 值 的 概率 为 0.95。 

正如 式 (11-2) 所 述 ，(n -1)s/o? 服从 X 分 布 ， 因 此 我 们 可 以 用 (n -1)s*/o? 代替 xX ， 得 到 

Ws (11-3) 
实际 上 ， 由 于 (mn -1l)szyvez 的 所 有 可 能 取 值 落 在 区 间 Xiowms 到 Xoo0s 的 概率 为 0.95 或 5%， 于 是 根据 式 (11-3) 可 
以 得 到 区 间 估 计 。 现 在 我 们 需要 对 式 (11-3) 做 一 些 代 数 运算 以 获得 总 体 方差 o? 的 区 间 估 计 。 由 式 (11-3) 左 
面 的 不 等 式 ， 我 们 得 到 
Xi Wn = 1)s 


2 
TU 


即 


(R11 
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了 Sm 
对 式 (11-3) 右面 的 不 等 式 做 类 似 处 理 ， 得 到 
2 a 2 (11-5) 
综合 式 (11-4) 和 式 (11-5), 我 们 得 到 
z (a a ns (11-6) 
Xo.05 Xo. 975 


因为 式 (11-3) 对 于 95% 的 (=1l)sve- 的 值 成 立 ， 所 以 , 式 (11-6) 给 出 了 总 体 方差 o 的 95% 的 置信 区 间 
情 计 5 
让 我 们 回 到 求治 装 量 的 总 体 方差 的 区 间 估 计 问 题 上 来 。 我 们 记得 由 20 个 容器 组 成 的 样本 得 到 的 样本 方差 为 

s* =0;002 5。 由 于 样本 容量 为 20， 所 以 自由 度 为 19。 如 图 11-2 所 示 ， 我 们 已 经 知道 Xo ms = 8. 907, No =328852, 
将 这 些 数值 代入 式 (11-6) ， 可 以 得 到 总 体 方差 的 区 间 估 计 如 下 。 

19 x0.0025 _ ，_ 19 x0.0025 

8 = < 
或 


0.0014<o 0.0053 
对 上 式 开平 力 根 ; 我 们 得 到 总 体 标准 差 的 95% 的 置信 区 间 如 下 .9 
0.0380=<o <0.0730 
以 上 我 们 说 明了 利用 X 分 布 建立 总 体 方差 与 总 体 标准 差 的 区 间 估 计 的 过 程 。 应 特别 注意 ， 由 于 使 用 区 wm; 和 


Xo.ms ， 因 此 区 间 估 计 的 息 信 系数 为 0. 95。 将 式 (11-6) 推广 到 任意 置信 系数 的 一 般 情形 ， 我 们 得 到 一 个 总 体 方差 
的 区 间 估计 如 下 。 





.用 ; 表示 总 体 方差 的 假设 人 关于 总 体 方差 有 如 下 三 种 形式 的 假设 检验 : 
Hiio 三 oi Hi:o < oo Way = 
Hosa <0 Hi:g > oo Hig 天 oo 
这 三 种 形式 与 第 9 章 和 第 10 章 中 我 们 用 于 总 体 均值 和 比率 的 单 侧 和 双 侧 假设 检验 的 三 种 形式 类 似 。 
进行 总 体 方差 假设 检验 的 步 又， 是 用 总 体 方差 的 假设 人 oo eta 来 计算 检验 统计 量 X 的 值 。 假 设 总 
体 服 从 正 态 分 布 ， 则 检验 的 统计 量 如 下 。 





© 对 总 体 方差 置信 区 间 的 上 限 和 下 限 开平 方 根 ， 就 能 得 到 关于 总 体 标准 差 的 置信 区 间 估 计 。 
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在 计算 出 检验 统计 量 X 的 数值 之 后 ， 可 使 用 产值 法 或 者 临界 值 法 来 确定 原 假设 是 否 被 拒绝 。 

让 我 们 考虑 如 下 例子 ， 圣 路 易 斯 城市 汽车 公司 鼓励 其 员工 遵守 时 间 ， 以 在 公众 面前 树立 值得 信赖 的 形象 。 作 
为 一 个 规范 制度 ， 该 公司 要 求 各 辆 汽车 的 到 站 时 间 变 化 不 大 。 就 到 站 时 间 的 方差 而 言 ， 公 司 规定 的 标准 是 到 站 时 
间 〈 以 分 钟 计 ) 的 方差 不 超过 4。 利 用 如 下 的 假设 检验 ， 可 以 帮助 公司 确定 到 站 时 间 的 总 体 方差 是 否 过 大 。 

Hl:o” <4 
Ho >4 

如 果 尝 试 性 地 假设 H, 为 真 ， 即 我 们 假定 到 站 时 间 的 总 体 方差 满足 公司 规定 的 标准 。 如 果 当 样本 证 据 表 明 总 
体 方差 超过 规定 的 标准 时 ， 则 我 们 拒绝 H,。 从 这 一 点 上 说 ，Hu 被 拒绝 意味 着 必须 采取 进一步 的 措施 以 减 小 总 体 
方差 。 我 们 使 用 a =0. 05 的 显著 性 水 平 下 进行 假设 检验 。 

假定 在 某 个 市 中 心 车 站 随机 抽取 了 24 辆 公共 汽车 的 到 站 
时 间 组 成 一 个 样本 ， 得 到 样本 方差 为 =4.9。 假 设 到 站 时 间 
的 总 体 分 布 近似 服从 正 态 分 布 ， 则 检验 统计 量 的 数值 如 下 。 

Xx (ri)s (M24: 1) x 9 3 8, fe 
自由 度 为 wn-1=24 -1=23 的 * 分 布 如 图 11-3 所 示 。 因 为 这 " 到 
是 上 侧 检验 ， 所 以 检验 统计 量 * =28. 18 右 侧 的 曲线 下 的 面积 “图 11-3 圣路易斯 城市 汽车 公司 例子 的 X 分 布 
就 是 检验 的 产值 。 

同 : 分 布 表 类 似 , X 分 布 表 同样 没有 包含 足够 的 细节 使 我 们 能 够 得 到 精确 的 p- 值 。 但 是 ， 我 们 可 以 利用 X 分 
布 表 得 到 p- 值 的 一 个 范围 。 例 如 ， 利 用 表 11-1， 我 们 发 现 自由 度 为 23 的 X 分 布 有 如 下 信息 。 


上 侧面 积 0. 10 0.05 0. 025 0, 01 






(n=1)'s2 
We er 


ee 
a ys 
pe 





Xx” 值 (自由 度 为 23)* 


x =28. 18 


因为 X =28. 18 <32.007， 所 以 上 侧面 积 (p- 值 ) 大 于 0.10。 由 于 pp- 值 >a=0.05， 所 以 我 们 不 能 拒绝 原 假 
设 ， 即 样本 不 支持 到 站 时 间 的 总 体 方差 变 大 这 个 结论 。 
由 于 直接 从 X 分 布 表 很 难得 到 精确 的 p- 值 ， 但 是 诸如 Minitab 或 Excel 等 计算 机 软件 包 可 以 帮助 我 们 。 本 书后 
的 附录 中 描述 了 如 何 计算 p- 值 。 在 该 附录 中 ， 我 们 得 到 X =28. 18 对 应 的 产值 为 0.209 1。 
同 其 他 假设 检验 程序 一 样 ， 也 可 以 使 用 临界 值 法 得 出 假设 检验 的 结论 。 当 a =0.05 时 ,Xow 给 出 了 上 侧 检 验 的 临 
界 值 。 利 用 表 11-1， 对 于 自由 度 为 23 的 XX 分布 ， 得 到 X00 =35. 172。 因 此 ， 对 到 站 时 间 例 子 的 拒绝 法 则 如 下 : 
如 果 X 宇 35. 172， 则 拒绝 再 


因为 检验 统计 量 的 数值 XY = 28. 18 ， 所 以 我 们 不 拒绝 原 假设 。 
实践 中 ， 上 侧 检 验 最 常用 于 关于 总 体 方差 的 检验 。 在 涉及 到 达 时 间 、 生 产 时 间 、 灌 装 重量 、 零 件 尺寸 等 情 
形 ， 一 般 都 要 求 较 小 的 方差 ， 而 较 大 的 方差 则 不 可 能 接受 。 在 给 出 总 体 方差 的 最 大 容许 值 的 情况 下 ， 我 们 可 以 检 
验 原 假设 : 总 体 方差 小 于 或 等 于 最 大 容许 值 ; 对 立 假设 总 体 方差 大 于 最 大 容许 值 。 根 据 这 种 检验 的 结构 ， 一 且 
拒绝 原 假 设 ， 则 显示 总 体 方差 过 大 ， 应 该 采取 纠正 措施 。 
同 我 们 对 总 体 均值 和 总 体 比 率 的 检验 一 样 ， 也 可 以 进行 其 他 形式 的 假设 检验 。 让 我 们 通过 考察 某 机 动车 辆 管 
理 处 所 面临 的 问题 ， 来 说 明 关 于 总 体 方差 的 双 侧 检验 。 历 史上 ， 申 请 驾驶 执照 的 个 大 考试 分 数 的 方差 为 we =100。 
现在 考试 采用 了 新 型 考题 。 该 管理 处 的 负责 人 希望 新 型 考题 的 考分 方差 保持 在 原 有 水 平 上 。 为 评价 新 型 考题 考分 
的 方差 ， 提 出 下 面 的 双 侧 假设 检验 。 
H,:o” = 100 
H,:o” # 100 
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拒绝 H, 表明 方差 发 生 了 改变 ， 因 此 为 了 使 新 型 考题 考分 的 方差 保持 原 有 水 平 ， 必 须 修 订 新 型 考题 中 的 某 些 
考题 。 一 个 由 30 各 驾驶 执照 的 申请 者 组 成 的 样本 将 接受 这 种 新 型 考题 的 考试 。 我 们 在 w =0; 05 的 显著 性 水 平 下 进 
行 假设 检验 。 

由 30 份 新 型 考题 的 考分 组 成 的 样本 方差 为 x = 162， 检 验 统计 量 的 数值 如 下 : 


2 _ (n-l)s (30-1) x162 _ 
XX 1 i 46. 98 
现在 让 我 们 来 计算 p- 值 。 利 用 表 11-1 和 自由 度 为 n -1=29， 我 们 得 到 如 下 信息 : 
上 侧面 积 0. 10 0.05 0. 025 0.01 
Xe 值 (自由 度 为 29) 39. 087 42. 557 45. 722 49. 588 


从 =46.98 


因此 检验 统计 量 的 数值 X =46. 98 所 对 应 的 X 分 布 上 侧面 积 介 于 0. 01 ~ 0.025。 将 这 些 数值 加 倍 ， 得 到 双全 
检验 的 p- 值 介 于 0.02 ~0.05。 使 用 Minitab 和 Exeel 可 以 得 到 精确 的 p- 值 为 0.0374。 由 于 p- 值 <a =0.05， 我 们 拒 
绝 Hu， 得 出 新 型 考题 考分 的 方差 与 不 同 于 以 往 考试 分 数 的 方差 w_ =100。 表 11-2 中 给 出 了 一 个 总 体 方差 假设 检验 
步骤 的 汇总 。 


表 11-2 有 
下 侧 检验 WE 双 侧 检验 


假设 Ho:0 0 Hoio <o? Ho :or =of 
H,:o* <o? H,:o* >0o% H, :0 #0$ 


. (tm te "人 {N= 
拒绝 法 则 ; 如 果 p- 值 所 a， 则 拒绝 Bo 如 果 产 值 和 ww， 则 拒绝 Ho 如 果 广 值 二 we， 则 拒绝 H。 
产值 法 


拒绝 法 则 : 如 果 X <xt -wu ， 则 拒绝 Ho 如 果 X Xa ， 则 拒绝 Hu 如 果 刀 <Xt1 -或 巡 >Ma ， 则 拒绝 Ho 
临界 值 法 





方法 , : 人 组 成 一 个 样本 ， 他 们 在 万 圣 节 服装 上 的 花费 总 额 


太 2、 由 20 个 项 目 组 成 一 个 样本 ， 样 本 标准 差 为 5。 数据 如 下 【单位 : 美元 ) 。 
a. 计算 总 体 方 差 的 90% 的 置信 区 间 。 > 
b. 计算 总 体 方差 的 95% 的 置信 区 间 。 .0 


c. 计算 总 体 标 准 差 的 号 铬 的 置信 区 间 。 a. 成 年 人 在 万 圣 节 服 装 上 花费 的 总 体 均 值 的 估计 值 
应 用 是 多 少 ? 


4. 药品 重量 的 方差 在 制药 工业 中 非常 关键 。 对 菜 种 特 “上 "样本 标准 差 是 多 少 ? 
定 药物 (单位; 克 )， 由 18 份 该 药物 组 成 的 一 介 兰 5. 给 出 威 年 人 在 万 圣 节 服 装 上 花费 总 额 的 总 体 标准 


本 ;得 出 样本 方差 $=0.36。 
a. 构造 该 药物 重量 的 总 体 方差 的 90% 置 信 区 间 。 
b. 构造 总 体 标准 差 的 90% 置 信 区 间 估 计 。 


6. 美国 人 在 万 圣 节 服装 和 服饰 上 花费 了 近 70 亿美 元 


(《 华 尔 街 日 报 》， 2011 年 10 月 27 日 )。16 个 成 年 


差 的 .95 和 的 置信 区 闻 估 计 。 


: 2009 年 3 月 4 日 是 2009 年 年 初 股票 市 场 为 数 不 多 的 几 


个 好 日 子 之 一 ， 该 天 的 道琼斯 工业 股票 平均 价格 指数 
大 涨 149. 82 点 ( 《华尔街 日 报 》»，2009 年 3 月 25 日 )。 
下 表 是 12 家 公司 该 天 股票 价格 变动 的 样本 数据 : 
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价格 变动 价格 变动 95 90 83 35 95 
公司 美元 公司 美元 98 80 83 82 93 
~ Aflac 0. 81 John. & John. 1. 46 86 80 94 64 62 
Bank of Am. -0.05 Loews Cp 0.92 2 We 
Cablevision 0.41 || Nokia 0. 21 ng 消费 ohne ie 多 9 
TR L.32 | Supralngy 0.97 b. 样本 方差 是 多 少 ? 
Flour Cp 人 -六 和 Sunoco 0. 52 c， 样 本 标准 差 是 多 少 ? 
ee Ee d. 构造 一 个 可 以 判定 总 体 标准 差 9 = 12 是 否 被 
a. 计算 该 天 价格 变动 的 样本 方差 。 Costco 拒绝 的 假设 检验 。 在 显著 性 水 平 为 0.05 


下 ， 你 的 结论 如 何 ? 

12.《 财 富 》 杂 志 做 了 一 项 研究 ， 发 现 其 订阅 者 中 拥有 
或 租用 车 辆 数量 的 方差 为 0.94。 假 定 12 名 另 一 份 
杂志 订阅 者 拥有 或 租用 车 辆 的 数据 如 下 所 示 : 2， 
本 
a. 计算 这 12 名 订阅 者 拥有 或 租用 车 辆 数量 的 样本 


b. 计算 该 天 价格 变动 的 样本 标准 差 。 
构建 总 体 方差 和 总 体 标准 差 的 95% 的 置信 区 间 
估计 。 
10. 《消费 者 报告 》 用 百分制 的 消费 者 满意 度 得 分 来 评 
价 全 国 的 主要 连锁 店 。 假设 根 据 过 去 的 经 验 ， 消 费 


者 满意 度 得 分 的 总 体 标准 差 为 go =12。2012 年 ， 在 廊 关 。 

40 个 州 拥有 432 家 商铺 的 Costco 是 总 体质 量 得 到 b. 对 假设 Hu:oz = 0.94 进行 检验 ， 以 确定 两 份 杂 
优秀 的 唯一 一 家 连锁 店 。 下 面 是 15 个 Costco 消费 志 订 阅 者 拥有 或 租用 车 辆 数 的 方差 是 否 相 同 。 
者 满意 度 得 分 的 样本 数据 。 在 0.05 的 显著 性 水 平 下 ， 你 的 结论 如 何 ? 


11. 2， 两 个 总 体 方差 的 统计 推断 


在 一 些 统计 应 用 中 ， 我 们 可 能 想 比较 两 个 不 同 生产 工序 生产 出 来 的 产品 质量 的 方差 ， 两 种 不 同 装配 方法 所 需 
装配 时 间 的 方差 ,或 者 两 种 加 热 装 置 温度 的 方差 。 在 比较 两 个 总 体 方差 时 ， 我 们 将 使 用 两 个 独立 随机 样本 收集 的 
数据 ， 其 中 一 个 来 自 总 体 1， 而 另 一 个 来 自 总 体 2， 两 个 样本 方差 s+ 和 总 是 推断 总 体 方差 o? 和 oi 的 基础 。 当 两 
个 正 态 总 体 的 方差 相等 (o? =o?) 时 ， 样本 方差 之 比 5Vs: 有 如 下 的 抽样 分 布 。 





图 11-4 是 分 子 和 分 母 自 由 度 均 为 20 的 下 分 布 曲线 图 形 。 
从 这 张 图 上 我 们 能 看 出 ， 分 布 是 不 对 称 的 ,而且 值 永远 
不 取 负数 。 任 何 正 分 布 的 形状 依赖 于 分 子 和 分 母 的 自由 度 。 
我 们 将 用 .表示 F 分 布 的 上 侧面 积 或 概率 为 a 时 的 值 。 
例如 ， 如 图 11-4 所 示 ，F,w 表 示 对 于 分 子 和 分 母 自 由 度 都 为 
20 的 正 分布， 其 上 侧面 积 为 0.05。F,ws 这 个 特定 值 可 以 从 下 


Bo 


分 布 表 中 查 出 ， 表 11-3 是 其 中 的 一 部 分 。 根 据 分 子 和 分 母 自 Foos 





由 度 都 为 209， 以 及 相应 的 上 侧面 积 为 0.05，, 我 们 查 出 Fuos = 。 图 1-4 分 耶 与 分 母 自由 度 都 为 20 的 分布 
2 12。 注 意 ， 对 上 全面 积 为 0 10，0.05， 0. 025 和 0. 07， 从 该 表 中 可 以 查 出 对 应 的 正 值 。 更 为 详细 的 亚 分 布 表 见 


1 








ed 
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附录 B 的 表 4。 
表 11-3 FF 分 布 表 节选 

分 母 自由 度 上 上 侧面 积 SE 3 

10 0. 10 2:13 2. 16 

0. 05 2873 2.70 

0. 025 3. 35 3. 31 

0.01 4.31 4. 25 

15 0. 10 1. 89 :87 

-0.05 98 2. 25 

0. 025 2. 69 2.64 

0.01 3. 28 3.21 

20 0. 10 1. 94 1. 84 1.79 1. 76 1.74 

0. 05 2. 35 2.20 etbz 2.07 2. 04 

0. 025 2.77 2. 57 2.46 2 40 2. 35 

0.01 3, 37 3,09 2.94 2. 84 3 8 

25 0, 10 1. 87 Be/ 1.72 1 68 1. 66 

0.05 2. 24 2.09 2.01 1. 96 1. 92 

0. 025 2.61 2.41 2., 30 2.23 2; 18 

0.01 3. 13 2.85 2.70 2.60 2. 54 

30 0. 10 1, 82 1.72 1.67 1. 63 1.61 

0. 05 2. 16 2.01 1.93 1. 88: 1.84 

0. 025 051 2.31 2. 20 2, 12 .07 

0.01 2. 98 2.70) 5 2. 45 2, 39 


注 ， 更 完整 的 记分 布 值 见 附录 日 的 表 B -4。 
人 介绍 如 何 用 分 布 进行 两 个 总 体 方 关 的 作 设 检验 。 我 们 以 检验 两 个 闪 体 方差 相等 开始 ， 所 做 的 人 


Ho:o1 Ey 0 
1 姑 0 
我 们 尝试 性 地 假设 总 体 方差 相等 。 如 果 H 被 拒绝 ， 我 们 将 得 出 两 个 总 体 方差 不 相 等 的 结论 。 
进行 这 个 假设 检验 的 步 又 是 首先 需要 两 个 独立 的 随机 样本 ， 上 征 一 个 样本 来 自 一 个 总 体 ， 然后 计算 两 个 样本 方差 。 我 
们 将 提供 较 大 样本 方差 的 总 体 记 为 总 体 1， 因 此 ， 对 应 总 体 1 的 样本 容量 为 ， 样本 方差 为 si 对 于 总 体 2 的 样本 容量 
为 m,， 样 本 方 尖 为 号。 在 候 没 两 个 总 体 者 肌 从 正太 分布 的 革 础 上 ， 祥 让 方 类 之 比 可 以 得 到 如 下 的 检验 统计 量 











“因为 进行 检验 的 统计 量 的 分 子 是 较 大 的 样本 方差 ， 因 此 检验 统计 量 的 数值 将 出 现在 分布 的 上 侧 ， 所 以 
表 11.3 和 附录 B 中 的 表 4 只 需要 给 出 上 侧面 积 或 概率 。 如 果 我 们 不 用 这 种 方式 构造 检验 统计 量 ， 可 能 需要 用 到 下 
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侧面 积 或 概率 ， 在 这 种 情形 下， 将 需要 额外 的 计算 或 更 完整 的 分 布 表 。 现在 让 我 们 考虑 一 个 关于 两 个 总 体 方差 
相等 的 假设 检验 例子 。 
Dullus 县 立 学 校 想 更 新 明年 校车 服务 的 合同 ， 必 须 从 Milbank 公司 和 Gulf Park 公司 这 两 个 公共 汽车 公司 中 选 
择 一 个 。 我 们 将 用 到 达 时 间或 运送 时 间 的 方差 作为 衡量 公共 汽车 公司 服务 质量 的 基本 标准 。 较 低 的 方差 说 明 服 务 
质量 比较 稳定 而 且 水 平 比较 高 。 如 果 两 个 公司 的 汽车 到 达 时 间 的 方差 相等 ，Dullus 学 校 的 管理 者 就 会 选择 能 提供 
较 低 价格 的 那个 公司 。 然 而 ， 如 果 两 个 公司 汽车 到 达 时 间 的 样本 数据 表明 两 个 方差 明显 不 等 ， 管 理 者 将 优先 考虑 
服务 质量 更 好 或 方差 更 小 的 那个 公司 。 对 应 的 假设 如 下 。 
Neyo =-03 
Hw ¥ 03 
如 果 Hu 被 拒绝 ， 则 说 明 两 个 公司 的 服务 质量 不 相同 。 我 们 在 显著 性 水 平 w =0. 10 下 进行 假设 检验 。 
选择 Milbank 公司 的 26 次 到 达 时 间 组 成 一 个 样本 ,得 到 样本 方差 为 ss =48; 选择 Gulf Park 公司 的 16 次 到 达 
时 间 组 成 另 一 个 样本 ， 得 到 样本 方差 为 中 =20。 由 于 Milbank 的 样本 方差 较 大 ， 我 们 将 Milbank 视 为 总 体 1。 利 用 
式 (11-10) ， 检 验 统计 量 的 数值 为 
胰 
= 到 = 2 = 2.40 
相应 的 下 分 布 的 分 子 目 由 度 为 m -1=26--1=25, 分 母 自 由 度 为 n, -1=16 -1=15。 
同 其 他 假设 检验 程序 一 样 ， 我 们 可 以 使 用 产值 法 或 临界 值 法 得 出 假设 检验 的 结论 。 从 表 11-3 中 得 到 对 分 子 自 
由 度 为 25， 分 母 自 由 度 为 15 的 下 分 布 上 侧面 积 所 对 应 的 下 值 如 下 。 


上 侧面 积 0. 10 0. 05 0. 025 0.01 
F 值 (dh =25，ojp =15) 





F=2.40 


因为 f=2.40 介 于 2.28 ~2.69， 因 此 FF 分 布 的 上 侧面 积 就 介 于 0.025 ~0.05。 既 然 这 是 双 侧 检验 ,我们 将 上 
侧面 积 加 倍 ， 得 到 p- 值 介 于 0.05 ~0.10。 对 于 这 个 检验 ， 我们 选择 a =0. 10 作为 显著 性 水 平 ， 由 于 产值 <a = 
0; 10， 因 此 原 假 设 被 拒绝 ， 这 个 结果 导致 我 们 得 出 两 个 公共 汽车 服务 运送 时 间 的 方差 是 不 同 的 结论 。 因 此 Dullus 
学 校 的 管理 者 就 可 以 优先 考虑 服务 更 好 或 方差 较 小 的 Gulf Park 公司 。 

我 们 利用 Excel 或 Minitab 可 以 得 到 检验 统计 量 玉 =2. 40 对 应 的 双 侧 产值 为 0.081 1。 由 于 0.081 1 <a =0.10， 
所 以 两 个 总 体 方差 相等 的 原 假设 被 拒绝 。 

在 显著 性 水 平 a=0. 10 下 ， 用 临界 值 法 进行 双 侧 假设 检验 。 我 们 使 用 分 布 每 一 侧 的 面积 a/2 =0. 10/2 =0. 05 
来 选择 临界 值 。 因 为 利用 式 (11-10) 计算 的 检验 统计 量 的 数值 永远 在 分 布 的 上 侧 ， 所 以 我 们 只 需要 确定 上 侧 临 
界 值 。 从 表 11-3 中 我 们 看 到 Fos =2. 28。 因 此 ， 尽 管 我 们 使 用 的 是 双 侧 检验 ， 拒 绝 法 则 可 陈述 如 下 。 

如 果 宇 2. 28， 则 拒绝 后 

因为 =2.40 >2.28， 所 以 我 们 拒绝 H,， 并 得 出 两 个 公共 汽车 服务 运送 时 间 的 方差 不 相等 的 结论 。 

涉及 两 个 总 体 方差 的 单 侧 检验 也 是 可 能 做 到 的 ， 在 这 种 情形 下 ， 我 们 用 下 分 布 来 确定 一 个 总 体 的 方差 是 否 显 
著 大 于 另 一 个 总 体 的 方差 。 关 于 两 个 总 体 方差 的 单 侧 假设 检验 可 永远 写成 上 侧 检验 的 形式 :” 

H, :ar = 0r; 

百 :ai > rr， 
假设 检验 的 这 种 形式 永远 讨论 玉 分 布 的 上 侧 p- 值 和 临界 值 。 因 此 ， 只 需要 上 侧 Ff 值 ; 简化 了 计算 和 查 丰 分 布 表 。 
让 我 们 通过 考虑 民意 调查 来 说 明 使 用 下 分 布 进行 两 个 总 体 方差 的 单 侧 检 验 。 由 31 名 男性 和 41 名 女性 组 成 的 


名 ”两 个 总 体 方差 的 单 侧 假设 检验 可 以 永远 写成 上 侧 检验 的 形式 ， 这 种 方法 消除 了 对 下 侧 忆 值 的 需要 。 
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样本 将 用 于 研究 他 们 对 当前 政治 问题 的 态度 。 研 究 者 想 通 过 样本 数据 检验 ， 女 性 对 政治 问题 的 态度 的 方差 是 否 比 
男性 要 大 。 在 前 边 给 出 的 单 侧 假设 检验 的 形式 中 ， 用 总 体 1 代表 女性 ， 用 总 体 2 代表 男性 ， 假 设 检验 将 表示 如 下 。 
H, | - 

了 no 

如 果 Hu 被 拒绝 ， 研 究 者 就 能 得 到 他 所 需 的 统计 文 持 ， 从 而 作出 女性 对 政治 问题 的 态度 具有 较 大 方差 的 结论 。 

由 于 用 女性 的 样本 方差 作为 分 子 而 用 男性 的 样本 方差 作为 分 母 ， 所 以 分 布 的 分 子 自 由 度 为 nn 一 1=41 -1= 
40， 分 母 自由 度 为 n, -1=31 -1=30。 我 们 使 用 显著 性 水 平 gq=0.05 来 进行 假设 检验 。 调 查 结果 表明 ， 女 性 的 样 
本 方差 % =120， 男 性 的 样本 方差 ;; =80。 则 检验 的 统计 量 如 下 : 


参考 附录 B 中 表 4， 我 们 发 现 对 于 分 子 自 由 度 为 40， 分 母 自 由 度 为 30 的 下 分 布 有 Fi。 =1.57。 因 为 检验 统计 
量 正 =1,50 <1.57， 上 侧面 积 必 然 大 于 0. 10。 所 以 ,我 们 可 以 得 出 产值 大 于 0. 10。 利 用 Minitab 或 Excel 得 到 产值 
为 0. 125 6。 因 为 产值 > a =0. 05 ， 不 能 拒绝 Hu,， 因 此 ， 样 本 结果 不 支持 女性 对 政治 问题 态度 的 方差 比 男性 大 的 结 
论 。 表 11-4 中 给 出 了 两 个 总 体 方差 的 假设 检验 的 汇总 。 


表 11-4 两 个 总 体 方差 假设 检验 的 汇总 


上 侧 检验 双 侧 检验 
假设 Ho: ai Ha: of = 
H, :of >03 H, :of #0 
注 : 总 体 1 拥有 较 大 的 样本 方差 

和 $2 
检验 统计 量 Fh= 本 P= 于 

Ss Hy 
拒绝 法 则 : p- 值 方法 如 果 p- 值 地 w， 拒 绝 Bo 如 果 p- 值 <a， 拒 绝 H。 
拒绝 法 则 : 临界 值 法 如 果 二. ， 则 拒绝 Ho 如 果 大,,， 则 拒绝 Ho 


研究 人 员 证 实 了 不 分布 对 于 正 态 总 体 的 假定 是 敏感 的 。 只 有 当 两 个 总 体 至 少 近似 正 态 分 布 的 假定 是 合理 的 情 
况 下 ， 才 能 使 用 忆 分 布 。 





方法 : 标准 差 的 基金 更 具 风 险 。 最 近 报 道 American Centu- 


方差 =5.8; 从 总 体 2 抽取 21 个 项 目 组 成 一 个 样 金 的 标准 差分 别 为 15.0% 和 18.9% (The Top Mu- 
本 ， 得 到 样本 方差 如 =2.45 在 显著 性 水 平 0.05 tual Funds，AA 工 ，2009 年 ) 。 假 设 这 些 标 准 差 都 


是 基于 60 个 月 的 回报 率 组 成 的 样本 计算 的 。 样 本 
结果 有 是否 支持 Fidelity 基金 的 总 体 方 差 比 American 
Century 基金 大 的 结论 ? 哪 只 基金 更 具 风 险 ? 

18. Barron”s 搜集 了 1000 名 顶级 财政 顾问 的 数据 
a. 使 用 pp- 值 法 ， 你 有 何 结 论 ? (Barron"s，2009 年 2 月 9 日 )， 其 中 美 林 有 239 人 ， 
b. 使 用 临界 值 法 重复 上 述 检 验 。 摩根 士 丹 利 有 121 人 ,一 个 由 16 名 美 林 顾 问 和 10 

应 用 名 摩根 士 丹 利 顾问 组 成 的 样本 表明 ， 顾 问 们 管理 着 

16. 投资 者 通常 用 共同 基金 月 回报 率 的 标准 差 来 度量 许多 在 资金 总 量 上 有 很 大 方差 的 大 了 账户。 美 林 顾问 
基金 的 风险 ; 有 较 大 标准 差 的 基金 被 认为 比 有 较 少 们 管理 资金 总 量 的 标准 差 为 5.87 亿美 元 ， 摩 根 士 丹 


下 ,检验 下 列 假设 : 
Ho:o < aa 


2 2 
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利 顾问 管理 资金 总 量 的 标准 差 为 4.89 亿美 元 。 在 a 22. 一 项 研究 假设 在 温 滑 政 面 上 汽 攻 刊 车 距离 的 方差 


=0.10 下 进行 一 个 假设 检验 ， 以 确定 两 家 公司 管理 明显 比 在 干燥 路 面 上 汽车 刹车 距离 的 方差 要 大 。 在 
的 资金 总 量 的 总 体 方差 是 否 有 显著 差异 。 对 于 两 家 调查 研究 中 ， 以 同样 速度 行驶 的 16 辆 汽车 分 别 在 
公司 在 管理 资金 总 量 上 的 差异 ， 你 有 何 结 论 ? 湿 滑 路 面 上 和 干燥 路 面 土 检测 刊 车 距离 。 在 湿 滑 路 

20. 根据 Romae 对 薪金 调查 提供 的 资料 ， 注 册 会 计 师 面 上 ， 放 车 距离 的 标准 差 为 32 英尺 ; 在 干燥 路 面 
事务 所 资深 人 员 年 薪 的 方差 大 约 为 2.1， 而 注册 会 上 ， 标 准 差 为 16 英尺。 

计 师 事务 所 管理 人 员 年 薪 的 方差 大 约 为 11.1， 薪 a 在 显著 性 水 平 0.05 下 ， 样 本 数据 是 否 能 够 证 明 
金 数 据 以 1000 美元 计 。 假 设 薪金 数据 是 基于 25 名 湿 滑 路 面 上 和 章 车 距离 的 方差 此 干 干燥 路 面 上 条 
资深 入 员 和 26 名 管理 人 员 组 成 的 样本 ， 检 验 假设 : 车 距离 方差 大 的 结论 ? 天 值 是 和 多少? 

二 者 薪金 的 总 体 方差 相等 。 在 显著 性 水 平 0.05 下 ， b. 就 蜀 驶 安全 性 方面 的 建议 而 言 ， 你 的 统计 结论 
你 有 何 结论 ? 的 含义 是 什么 ? 






7 





本 章 我 们 介绍 了 可 以 用 于 先行 总 体 方差 丰 断 的 统 的 运用 。: 特 别 地 ， 我 们 说 明了 从 两 个 方差 相等 
计 方 法 。 在 这 个 过 程 中 ， 我 们 介绍 了 两 种 新 的 概率 分 (ol=oa) 的 正 态 总 体 分 别 抽取 容量 为 由 和 三 的 独 
布 : X 分 布 和 玉 分 布 。X 分 布 可 以 作为 一 个 正 态 总 体 立 简 单 随机 样本 ， 共 样本 方差 之 比 3/s? 的 抽样 分 布 
方差 的 区 间 估 计 和 假设 检验 的 基础 - 服从 分 子 自由 度 为 m -1 和 分 母 自由 度 为 mm -上 的 下 
我 们 阐述 了 在 两 不 总 体 方差 的 假设 检验 中 下 分 布 “分 布 。 






vr J" a Dw i 
- = 坟 , E> 
L ts = > 


一 个 总 体 方差 的 区 间 估 计 总 体 方差 ?=o 的 假设 检验 的 检验 统计 量 





人 FE (11-10) 
Nan N=-a72) Ws 
一 个 总 体 方差 假设 检验 的 检验 统计 量 
2 和 (11-8) 
[on 

补充 练习 了 Wi 

24. 平均 而 言 ， 首 次 公开 发 行 (IPO) 股票 的 价格 是 折 交 货 时 间 是 始终 如 一 的 。 一 个 由 22 次 运送 货物 所 
价 的 。 标 准 差 在 折价 - 溢价 指标 中 用 于 衡量 其 散 组 戌 的 样本 ， 得 到 样本 方差 为 15。 在 we =0.10 
布 或 变动 情况 。 由 13 只 在 多 伦 多 股票 交易 所 交易 下 ,检验 以 确定 能 否 拒 绝 B,:c 三 1。 

的 加 拿 大 IPO 组 成 一 个 样本 ， 得 到 的 样本 标准 差 为 30. 乘坐 某 航空 公司 航班 的 秉 客 数 量 的 样本 某 准 差 汶 名 
14. 95。 构 建 折价 ~ 溢价 指标 的 总 体 标 准 差 的 95% 名 乘客 5 总 体 标准 差 的 95% 的 置信 区 阅 为 5.86 ~ 
的 置信 区 间 估 计 。 12. 62 名 乘客 。 

26. 部 件 变 异性 在 滚珠 轴承 生产 过 程 中 至 关 重 要 。 滚 a 在 该 统计 分 析 中 ， 所 用 的 样本 容量 是 10 还 是 15? 
珠 轴 承 尺寸 的 方差 过 大 将 导致 滚动 失败 以 及 磨损 b. 假设 一 个 由 25 个 航班 组 成 的 样本 得 到 样本 标准 
过 快 。 滚 珠 尺 寸 以 英寸 为 单位 ， 生 产 标准 要 求 最 大 差 为 s=8. 名 乘客 ， 则 总 体 标 准 差 的 置信 区 间 将 
方差 为 0.000 1。 册 15 企 滚 珠 组 成 一 个 样本 ， 得 到 会 有 何 变化 ? 计算 样本 容量 为 25 的 gr 的 95% 的 
样本 标准 差 为 0.014 英寸 。 置信 区 间 估 计 。 

a. 在 w=0.10 下 ,确定 样本 是 否 表明 : 最 大 容许 32. 修 完 一 门 大 学 财务 会 计 课 程 的 352 名 学 生 GPA 的 
方差 已 经 被 超出 。 标准 差 为 0.940。 退 选 这 门 课程 的 73 名 学 生 GPA 
b. 计算 滚珠 总 体 方差 的 90% 的 置信 区 间 估 计 。 的 标准 差 为 0.797。 这 些 数 据 是 否 表 明 : 修 完 与 退 


28，City Trucking 公司 声称 ， 对 其 日 常客 户 运送 货物 的 选 财务 会 计 课程 的 学 生 GPA 的 方差 之 间 存 在 显著 
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差异 ?- 取 显著 性 水 平 为 0:05 ( 注 : 自由 度 为 351 


和 72 的 iu 孝 值 为 1.466) 。 人 半生 汪汪 sg 
34. 对 两 种 新 的 装配 方法 进行 检测 ， 并 报告 装配 时 间 的 和 和 mw 
样本 方差 st =25 7 


方差 。 在 a=0. 10 es 检验 两 个 总 体 方差 是 否 相 等 。 





ei- jel ED J me § pu | " | n | je [ot k ' lL 让 
sz 仍 | 2s 定 l| 练 计划 | | >- 

py 。 1 和 < 月 
= pd -ft Wl 有 | 


= mn wD SS 


空军 电子 学 引导 性 教程 采用 一 种 个 人 化 教学 系统 ， 每 位 学 生 观 看 讲座 录像 ， 然 后 给 以 程式 化 的 教材 。 每 位 学 
生 独 立 学 习 直 至 完成 训练 并 通过 考试 。 人 们 关心 的 问题 是 学 生 完 成 训 绕 计划 的 速度 的 不 同 。 有 些 学 生 能 够 相当 快 
地 完成 程式 化 教材 ， 而 另 一 些 学 生 在 教材 上 需要 花费 较 长 的 时 间 ， 甚 至 需要 加 班 加 点 才能 完成 课程 。 学 得 较 快 的 
学 生 必 须 等 待 学 得 较 慢 的 学 生 完 成 引导 性 教程 后 才能 一 起 进行 其 他 方面 的 训练 。 

建议 的 著 代 系统 是 使 用 计算 机 辅助 教学 。 在 这 种 方法 中 ， 所 有 的 学 生 观 看 同样 的 讲座 录像 ， 然 后 每 位 学 生 被 
指派 到 一 个 计算 机 终端 来 接受 进一步 的 训练 。 在 整个 教程 的 自我 训练 过 程 中 ， 由 计算 机 指导 学 生 独 立 操作 。 

为 了 比较 建议 的 和 当前 的 教学 方法 ， 刚 入 学 的 122 名 学 生 被 随机 地 安排 到 这 两 种 教学 系统 中 。61 名 学 生 使 用 
当前 程式 化 教材 ， 而 另外 61 名 学 生 使 用 建议 的 计算 机 辅助 方法 。 记 录 每 位 学 生 的 学 习 时 间 (单位 : 小 时 ) 。 下 列 
数据 存在 光盘 中 名 为 Training 的 数据 集中 。 


采用 当前 训练 方法 完成 教程 的 时 间 (小 时 ) 





76 76 77 74 76 74 74 77 72 78 73 
78 75 80 79 72 69 79 72 70 70 81 
76 78 72 82 72 73 71 70 77 78 73 
79 82 65 77 79 73 76 81 69 75 75 
77 79 76 78 76 76 73 77 84 74 74 
69 79 66 70 74 72 
采用 建议 的 计算 机 辅助 方法 完成 教程 的 时 间 (小 时 ) 
74 75 77 78 74 80 73 73 78 76 76 
74 77 69 76 75 72 75 72 76 72 77 
73 77 69 77 75 76 74 77 78 72 
77 78 78 76 75 76 76 75 76 80 77 
76 75 73 77 77 77 79 75 75 72 82 
76 76 74 72 78 71 
管理 报告 


1. 利用 适当 的 描述 统计 学 方法 汇总 每 种 方法 的 训练 时 间 数 据 。 根 据 样本 资料 ， 你 能 观察 到 有 和 何 相 似 之 处 和 
差异 ? 

2. 利用 第 10 章 的 方法 评价 两 种 方法 总 体 均 值 之 间 的 差异 ， 讨 论 你 的 结论 。 

3. 计算 每 一 种 训练 方法 的 标准 差 与 方差 。 进 行 两 种 训练 方法 总 体 方差 相等 的 假设 检验 ， 讨 论 你 的 结论 。 

4. 关于 两 种 方法 之 间 的 差异 ， 你 能 得 到 什么 结论 ? 你 有 何 建议 ? 请 作出 解释 。 

5. 对 于 将 来 要 使 用 哪 种 训练 计划 ， 在 作出 最 终 决 定之 前 你 是 否 还 需要 其 他 数据 或 者 检验 ? 
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实践 中 的 统计 : 联合 劝 暮 协会 

12.1 三 个 或 多 比率 的 相等 性 的 检验 
12.2 独立 性 检验 

12.3 ” 拟 合 优 度 检验 
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实践 中 的 统计 
联合 劝 募 协 会 “ 
纽约 州 ， 罗 切 斯 特 


大 罗切斯特 地 区 的 联合 劝 暮 协会 【United Way) 是 
一 个 非 营利 性 组 织 ， 该 组 织 致 力 于 满足 社区 最 重要 的 
人 类 关怀 需求 ， 从 而 提高 它 所 服务 的 7 个 县 全 部 居民 
的 生活 质量 。 

每 年 春季 ， 联合 劝 茵 协会 / 红 十 字 会 举行 募捐 活 
动 ， 所 得 资金 用 于 超过 200 个 服务 机 构 所 提供 的 儿 百 
个 服务 项 目 。 这 些 服 务 机 构 提供 能 满足 人 类 各 种 需求 
的 服务 ， 如 身体 的 、 精 神 的 、 社 会 的 ， 并 且 为 各 种 年 
龄 、 背 景 和 经 济 条 件 的 人 提供 服务 。 

为 进一步 了 解 社区 的 慈善 观念 ， 大 罗切斯特 地 区 
的 联合 劝 募 协会 决定 进行 一 项 调查 。 为 了 得 到 慈善 观 
念 的 初步 资料 吉他 们 走访 了 专业 人 员 、 服 务 人 员 和 一 
般 工 人 这 些 重点 群体 。 根 据 这 些 资料 ， 设 计 出 调查 问 
卷 。 间 卷 经 过 预 调查 、 修 订 之 后 ， 分 发 给 440 个 人 。 

从 搜集 到 的 数据 得 到 各 种 描述 性 统计 量 ， 包 括 频 
数 分 布 和 交叉 分 组 表 。 分 析 该 数据 的 一 个 重要 部 分 是 
独立 性 多 检验 ,这些 统计 检验 的 一 个 用 途 是 确定 行政 
开支 观念 是 否 与 职业 独立 。 


独立 性 检验 的 假设 为 ， 

Hu :联合 劝 茵 协会 行政 开支 观念 与 调查 对 和 象 的 职业 
独立 。 

H, :联合 劝 茵 协会 行政 开支 观念 与 调查 对 象 的 职业 
不 独立 。 

调查 中 ， 两 个 问题 提供 了 用 于 统计 检验 的 分 类 型 
数据 。 其 中 一 个 问题 得 到 了 有 关 行 政 开 支 占 资金 比例 
的 数据 (10% 以 下 、11% ~20% 及 21% 以 上 )， 另 一 
个 问题 是 调查 对 象 的 职业 。 

独立 性 检验 导致 原 假 设 被 拒绝 ， 因 此 可 以 断定 联合 
劝 募 协会 的 行政 开支 观念 的 确 与 调查 对 象 的 职业 有 关 。 
实际 的 行政 开支 小 于 99j， 但 是 有 35% 的 调查 对 象 认为 
行政 开支 超过 21% 。 因 此 ,很 多 人 用 不 准确 的 行政 开支 
观念 。 在 这 一 群体 中 ， 生 产 线 工 人 、 售 货 员 和 专业 技术 
人 员 比 群体 中 其 他 人 有 更 不 准确 的 行政 开支 观念 。 

社区 观念 的 研究 帮助 罗切斯特 地 区 的 联合 劝 暮 协 
会 调整 项 目 和 筹集 资金 活动 。 在 本 章 你 将 学 会 如 何 进 
行 如 上 所 述 的 检验 。 





在 第 9、10 和 11 章 中 ， 我 们 介绍 了 关于 一 个 和 两 个 总 体 的 总 体 均 值 、 比 率 和 方差 的 假设 检验 的 统计 推断 方 


法 。 本 章 ， 我 们 介 





另外 3 种 假设 检验 方法 ， 它 们 扩充 了 我 们 对 总 体 进行 统计 礁 断 的 能 力 。 


本 章 进行 的 假设 检验 所 使 用 的 检验 统计 量 都 基于 XY 分 布 。 在 所 有 的 情形 中 ， 数 据 都 是 分 类 型 的 。 这 些 P 检 


验 是 多 用 途 的 ， 并 由 检验 下 列 的 应 用 扩充 了 假设 。 
1. 检验 三 个 或 多 不 总 体 比率 的 相等 性 。 
2. 检验 两 个 分 类 变量 的 独立 性 。 


3. 检验 一 个 总 体 的 概率 分 布 是 否 服从 一 个 特殊 的 历史 或 理论 的 概率 分 布 。 


我 们 从 考虑 三 个 或 多 个 总 体 比 率 的 相等 性 开始 。 
人 


三 个 或 多 个 总 体 比率 的 相等 性 的 检验 


在 第 10.2 节 ， 我 们 介绍 了 两 个 总 体 比 率 的 统计 推断 方法 ， 其 假设 检验 的 结论 基于 标准 正 态 检验 统计 量 z。 这 
时 我 们 展示 如 何 使 用 检验 统计 量 XY ， 对 三 个 或 多 个 总 体 比率 的 相等 性 进行 统计 推断 。 使 用 如 下 记号 : 
户 一 一 总 体 1 的 总 体 比 率 ; 
Pp; 一 一 总 体 2 的 总 体 比 率 ; 


太一 吉林 的 总 体 比 率 。 


昌 ”作者 感谢 联合 动 募 协会 的 市 场 营销 顾问 Philip R. Tyler 博士 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
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关于 个 总 体 比 率 相等 性 的 假设 陈述 如 下 : 
Hp = ps = = ps 
H,: 所 有 总 体 比率 不 全 相等 
如 果 样 本 数据 和 X 检验 计算 结果 表明 H, 没有 被 拒绝 ， 我 们 不 能 断定 个 总 体 比率 有 差异 。 然 而 ， 如 果 样 本 


数据 和 X 检验 计算 结果 表明 HH, 被 拒绝 ， 我 们 有 统计 证 据 得 出 上 个 总 体 比率 不 全 相等 的 结论 ; 也 就 是 说 ， 一 个 或 
多 个 总 体 比 率 与 其 他 总 体 比 率 不 相等 。 可 以 进行 进一步 的 分 析 ， 以 得 出 哪个 或 哪些 总 体 比 率 与 其 他 总 体 比 率 有 显 
著 差 异 。 我 们 由 一 个 应 用 来 说 明 X 检验 。 

像 工 D. Power and Associates 这 样 的 组 织 ， 会 以 使 用 车 主 可 能 再 次 购买 某 款 汽车 的 比率 作为 顾客 汽车 品牌 忠诚 
度 的 指标 。 车 主 可 能 再 次 购买 某 款 汽车 的 比率 较 大 被 认为 有 较 大 的 顾客 品牌 忠诚 度 。 假 设 在 某 次 特殊 的 研究 中 ， 
我 们 希望 比较 雪佛兰 羚羊 、 福 特 Fusion 和 本 田 雅 阁 三 种 汽车 的 顾客 品牌 忠诚 度 。 当 前 三 种 汽车 的 车 主 梅 成 研究 的 
三 个 总 体 ， 感 兴趣 的 三 个 总 体 比率 如 下 : 

忆 一 一 雪佛兰 羚羊 车 主 总 体 可 能 再 次 购买 羚羊 的 比率 ; 
Ps 一 一 福特 Fusion 车 主 总 体 可 能 再 次 购买 Fusion 的 比率 ; 
已 一 一 本 田 雅阁 车 主 总 体 可 能 再 次 购买 雅阁 的 比率 。 
假设 陈述 如 下 : 
Ho:p = p, = Ps 
H,: 所 有 总 体 比 率 不 全 相等 

为 了 进行 这 个 假设 检验 ， 我 们 首先 从 三 个 总 体 中 的 每 一 个 总 体 抽取 车 主 样本 ， 从 而 我 们 将 得 到 一 个 雪佛兰 羚 
羊 车 主 的 样本 、 一 个 福特 Fusion 车 主 的 样本 和 一 个 本 田 雅 阁 车 主 的 样本 。 每 一 个 样本 提供 的 分 类 型 数据 表明 回答 
者 是 否 可 能 或 不 可 能 再 次 购买 该 品牌 汽车 。125 名 雪佛兰 羚羊 车 主 、200 名 福特 Fusion 车 主 和 175 名 本 田 雅阁 车 主 
的 样本 数据 汇总 结果 如 表 12-1 所 示 。“ 表 12-1 中 的 两 行 对 应 的 回答 为 “是 ”和 “和 否 "”，3 列 中 的 每 一 列 对 应 于 一 
个 总 体 。 汇 总 在 表 12-1 中 的 6 个 单元 格 观察 频数 对 应 于 可 能 再 次 购买 的 回答 和 三 个 总 体 的 每 一 个 组 合 。 

表 12-1 三 个 汽车 车 主 的 总 体 可 能 再 次 购买 的 样本 结果 (观察 频数 ) 
汽车 车 主 
雪佛兰 羚羊 福特 Fusion 本 田 雅 阁 车 合计 
可 能 再 次 购买 是 69 120 123 312 
否 56 _80 52 188 
合计 125 200 175 500 


利用 表 12-1， 我 们 看 到 125 名 雪佛兰 羚羊 车 主 中 ， 有 69 名 表明 他 们 可 能 再 次 购买 雪佛兰 羚羊 。200 名 福特 
Fusion 车 主 中 有 120 名 以 及 175 名 本 田 雅 阁 车 主 中 有 123 名 表明 他 们 可 能 再 次 购买 他 们 当前 品牌 的 汽车 。 同 时 ， 
综合 3 个 样本 ， 本 研究 中 的 500 名 车 主 中 有 312 名 表明 他 们 可 能 再 次 购买 他 们 当前 品牌 的 汽车 。 现 在 的 问题 是 我 
们 如 何 分 析 表 12-1 中 的 数据 ， 以 确定 假设 H,:p, =p, =ps 是 否 被 拒绝 ? 

表 12-1 中 的 数据 是 描述 可 能 再 次 购买 的 回答 与 车 主 总 体 的 6 个 组 合 的 6 个 单元 格 中 每 一 个 的 观察 频数 。 如 果 在 
假设 HH, 为 真 时 ， 我 们 能 确定 期 望 频 数 ， 我 们 就 可 以 利用 检验 统计 量 X 来 确定 观察 频数 和 期 望 频 数 之 间 是 否 存在 显著 
差异 。 如 果 观 察 频数 和 期 望 频 数 之 间 存 在 显著 差异 ， 假 设 Hu 将 被 拒绝 ， 就 有 所 有 总 体 比率 不 全 相等 的 证 据 。 

表 中 6 个 单元 格 的 期 望 频 数 基 于 以 下 基本 原理 。 首 先 ， 我们 假定 总 体 比 率 相等 的 原 假设 为 真 ， 然 后 ， 我 们 注 
意 到 在 全 部 500 名 车 主 的 样本 中 ， 总 共有 312 名 车 主 表明 他 们 可 能 再 次 购买 他 们 当前 品牌 的 汽车 。 因 此 ， 
3127500 =0. 624 是 可 能 再 次 购买 他 们 当前 品牌 汽车 的 车 主 的 总 样本 比率 。 如 果 H, :p, =p, =p, 为 真 ，0. 624 将 是 每 


日 、 在 类 似 这 样 的 研究 中 ， 对 每 一 个 总 体 我 们 常常 使 用 相同 的 样本 容量 。 在 这 个 例子 中 ， 我 们 选择 了 不 同 的 样本 容量 ， 以 表明 X 检验 
不 局 限于 大 个 总 体 中 的 每 一 个 的 样本 容量 都 相等 。 


一 种 汽车 车 主 总 体 回 答 可 能 再 次 购买 比率 的 最 佳 估计 值 。 因 此 ， 如 果 十 ,为 真 ， 我们 将 期 望 125 名 雪佛兰 羚羊 车 
主 中 的 0.624, 或 0.624 x 125 =78 名 车 主 表明 他 们 可 能 再 次 购买 羚羊 。 利 用 总 样本 比率 0. 624 ， 我 们 期 望 200 名 
福特 Fusion 车 主 中 的 0.624 x 200 = 124.8 名 以 及 175 名 本 国 雅 阁 车 主 中 的 0. 624 x 175 = 109.2 名 ， 分 别 回 答 他 们 
可 能 再 次 购买 相应 的 汽车 品牌 。 

”将 这 个 方法 推广 ， 让 我 们 计算 表 中 位 于 第 i 行 和 第 j 列 的 单元 格 的 期 望 频数 ei 使 用 这 个 记号 ， 现在 重新 
考虑 对 可 能 再 次 购买 的 回答 为 “是 ”( 第 1 行 ) 的 雪佛兰 冷 羊 车 主 (第 1 列 ) 的 期 望 频 数 的 计算 ， 即 期 望 频 
数 el。 

: 注意 回答 为 “是 ”的 合计 数 为 312 (第 1 行 合 计数 ) ， 雪 佛 兰 羚羊 车 主 的 样本 容量 为 的 125〈 第 1 列 合计 数 )， 
总 样本 容量 为 500。 遵循 上 一 段 的 逻辑 ， 我 们 可 以 得 到 

ov = (全数 )x 第 1 列 合 计数 = (如 )> 125 = 0.624 x 125 = 78 
由 上 面 表达 式 的 第 一 部 分 ， 我 们 得 到 


第 1 行 合计 数 x 第 1 列 合计 数 
总 样本 容重 
推广 之 ， 可 以 得 到 在 假设 为 走时 ， 用 于 计算 期 电 频数 的 公式 如 下 。 


Ke “~ Ear > ss oo cue a aq mf 
| | A iy 
有 本 





-~ _ 


J i 


利用 式 (12-1)， 我 们 看 到 对 本 田 雅 阅 车 主 (第 3 列 ) 回答 为 “是 ”( 第 1 行 ) 的 期 望 频数 es = (第 1 行 
合计 数 ) x 第 3 列 全 计数)/ 总 样本 容量 =312 x175/500 =109.2。 利用 式 (12-1) ， 得 到 的 期 望 频数 如 表 12-2 
所 示 。 -和 





置 佛 兰 兰 半 。 福特 Fusion” 本 田 雅 阁 车 合计 


可 能 再 次 购买 是 78 124.8 109.2 312 
否 47 5: 65. 8 188 
合计 125 ， 200 . 175 500 





再 次 查看 表 12-2 中 的 期 望 频数 ， 我 们 发 现 表 中 每 个 单元 格 的 期 望 频数 都 大 于 5。 因 此， 我 们 进行 检验 统计 量 
xX 的 计算 。 在 表 12-3 中 给 出 了 计算 检验 统计 量 值 的 必要 计算 结果 。 这 里 ， 我 们 得 到 检验 统计 量 的 数值 为 
we 三 89 。 Sy 
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表 12-3 ”检验 总 体 比率 相等 性 的 检验 统计 量 X 的 计算 


是 否 可 能 汽车 观察 频 期 望 频 差 差 的 平方 差 的 平方 除 以 期 望 频数 
再 次 购买 车 主 数 ( 记 ) 数 (@;) (1 —8;) (三 一 61 (=ey) /ey 
是 羚羊 69 78.0 -9.0 81. 00 1. 04 
是 Fusion 120 124. 8 —4.8 23. 04 0.18 
是 雅阁 123 109. 2 13.8 190. 44 1.74 
否 羚羊 56 47.0 9.0 81. 00 1.72 
否 Fusion 80 32 4.8 23.04 0. 31 
否 雅阁 52 65.8 下 190. 44 2. 89 
合计 500 500 好 =7.89 


为 了 确定 好 =7. 89 是 否 导致 我 们 拒绝 H,:p, =5, =p,， 你 需要 了 解 并 参考 六 分 布 值 。 表 12-4 显示 了 XX 分 
布 的 一 般 形 状 ， 但 要 注意 一 个 特殊 的 X 分布 的 形状 依赖 于 其 自由 度 的 数值 。 表 中 显示 了 自由 度 1 ~15 的 x 分 
布 上 侧面 积分 别 为 0.10，0.05，0. 025，0.01 和 0. 005 的 数值 。 这 个 版 本 的 X 分 布 表 能 够 让 你 进行 本 章 所 介 
绍 的 假设 检验 。 

表 12-4 X 分 布 的 节选 值 表 


面积 或 概率 





. x 
上 侧面 积 
自由 度 0. 10 0. 05 0. 025 0. 01 0. 005 
1 2.706 3. 841 5. 024 6. 635 7.879 
2 4. 605 5. 991 7. 378 9.210 10. 597 
3 6. 251 7. 815 9. 348 11. 345 12. 838 
4 7.779 9. 488 11, 143 13. 277 14. 860 
5 9. 236 11.070 12. 833 15. 086 16. 750 
6 10, 645 12. 592 14. 449 16. 812 18. 548 
7 12.017 14. 067 16. 013 18. 475 20. 278 
8 13. 362 15. 507 17, 535 20. 090 21. 955 
9 14. 684 16. 919 19. 023 21. 666 23. 589 
10 15. 987 18. 307 20. 483 23. 209 25, 188 
11 ) 区 抠 与 上 19.675 21, 920 24. 725 26, 757 
12 18, $549 21. 026 23. 337 26. 217 28. 300 
13 19. 812 22. 362 24. 736 27. 688 29. 819 
14 21. 064 23. 685 26. 119 29. 141 31. 319 
15 22. 307 24. 996 27. 488 30. 578 32. 801 


由 于 表 12-2 的 期 望 频数 基于 假定 Hu :p, =p, =ps 为 真 ， 观 察 频数 万 与 期 望 频数 。, 一致 ， 在 式 (12-2) 中 将 得 
到 (f; -e,)* 较 小 的 数值 。 如 果 这 样 ， 检 验 统计 量 X 的 数值 将 相对 较 小 ， 且 Hu 不 能 被 拒绝 。 另 一 方面 ， 如 果 观 
察 频数 与 期 望 频数 之 间 的 差异 较 大 ，(/f; -e,)* 的 数值 以 及 检验 统计 量 的 数值 将 较 大 ， 这 时 ， 总 体 比 率 相等 的 原 假 
设 可 能 被 拒绝 。 因 此 ， 总 体 比率 相等 性 的 X 检验 永远 是 一 个 上 侧 答 验 S， 当 检验 统计 量 位 于 X 分 布 的 上 侧 时 ， 得 


全 ”本 节 介 绍 的 坟 检验 永远 是 一 个 单 侧 检验 ，H, 的 拒绝 域 在 X 分 布 的 上 侧 。 


到 H, 的 拒绝 吉 。 
我 们 可 以 适当 的 分 布 的 上 侧面 积 和 p- 介 





上 法 来 确定 原 要 设 是 否 被 拒绝， 在 汽车 品牌 忠诚 度 的 研究 中 ， 三 2 


车 主 总 体 表明 适当 的 分 布 的 自由 度 为 上 ~ 1 =3 -1=2。 利 用 X 分布 表 的 第 2 行 ， 我 们 有 如 下 结果 ， 


”上 侧面 积 0.10 0.05 0, 025 0. 01 - 0. 005 





XX 值 (df=2) 


| X =7.89 

我 们 看 到 X=7.89 的 上 侧面 积 介 于 0. 025 ~0.01， 因 此 ， 相 对 应 的 上 侧面 积 或 p- 值 必然 介 于 0025 ~0.01。 由 
于 产值 <0.05, 我 们 拒绝 H。， 并 得 出 三 个 总 体 比 率 不 全 相等 ， 因 此 在 雪佛兰 羚羊 、 福 特 Fusion 和 本 田 雅 阅 车 主 中 
品牌 忠诚 度 之 间 存 在 差异 。 利 用 附录 中 提供 的 Minitab 或 Excel 程序 ， 对 于 自由 度 为 2,X =7,89 对 应 的 p- 值 = 
0.019 3。 

不 使 用 p- 值 法 ， 我 们 可 以 使 用 临界 值 法 得 到 相同 的 结论 。 对 于 a=0.05 和 自由 度 为 2， 检 验 统计 量 X 的 临界 
值 为 X =5. 991。 上 侧 检验 的 拒绝 法 则 变 为 ; 

如 果 刀 过 991, 则 拒绝 再 
由 于 7. 89>5.991， 我 们 拒绝 H,， 因 此 p- 值 法 和 临界 值 法 得 到 相同 的 假设 检验 结论 。 
我 们 总 结 用 于 进行 三 个 或 多 个 总 体 比率 相等 性 的 X 检验 的 一 般 步骤 如 下 。 








我 们 使 用 X 检验 得 到 三 人 总 休 东 划 趟 公 届 和 因此 ， 有 些 总 体 比率 之 间 存 在 差异 ， 而 且 研 究 
表明 雪佛兰 羚羊 、 福 特 Fusion 和 本 于 车主 中 顾客 品牌 忠诚 度 不 全 相同 。 为 了 说 明 总 体 比率 之 间 存在 的 差异 
我 们 庆 计 算 三 个 样本 比划 好 下 
,ee Tt 雪佛兰 羚 尘 | - jp, 大 69X125==0.5520 
福特 Fusion p; =120/200 =0. 6000 
本 田 雅 疼 =1237175 =0.7029 
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由 于 X 检验 表明 总 体 比 率 不 全 相等 ， 因 此 ， 我 们 进行 尝试 性 确定 哪些 总 体 比率 之 间 存 在 差异 是 合理 的 。 为 
此 ,我 们 依靠 用 于 对 所 有 成 对 的 总 体 比 率 进行 统计 检验 的 多 重 比 较 方法 。 接 下 来 ,我 们 讨论 一 种 多 重 比 较 方 
法 一 一 著名 的 Marascuilo 方法 (Marascuilo procedure) 。 对 所 有 成 对 的 总 体 比率 ， 这 是 一 种 相对 简单 的 方法 。 我 们 
将 用 汽车 顾客 品牌 忠诚 度 的 研究 来 说 明 这 种 多 重 比较 检验 方法 所 需要 的 计算 。 

首先 ， 我 们 计算 研究 中 每 一 对 总 体 的 样本 比率 之 差 的 绝对 值 。 在 三 个 汽车 品牌 忠诚 度 研究 的 总 体 中 ， 我 们 比 
较 总 体 1 和 和 2、 总体 1 和 3 以 及 总 体 2 和 3 的 样本 比率 如 下 : 





雪佛兰 羚羊 与 福特 Fusion 

[ -P|= 10.5520 -0.6000|= 0.0480 
雪佛兰 羚羊 与 本 田 雅 阁 

去 -|= |0.5520 -0.7029|=0;1509 
福特 Fusion 与 本 田 雅 阅 


|p; =Pi|= |0.6000 -0.7029|= 0.1029 
第 2 步 ， 我 们 选择 显 性 水 平 sad 





利用 表 人 -4 的 多 分 布 表 ; 大-1=3-1=2 的 自由 度 和 显著 性 水 平 0. 05， 我 们 有 Mo =5.991。 现 在 利用 样本 
比率 p, =0.5520, p, =0. 6000 和 p=0.7029， 三 个 成 对 比较 检验 的 临界 值 如 下 : 
雪佛兰 羚羊 与 福特 Fusion 


CV, = 
雪佛兰 羚羊 与 本 田 雅 阁 








2 0. 119 8 


_ 如 果 任 何 成 对 样本 比率 之 差 的 绝对 值 -万 | 超过 其 相对 应 的 临界 值 CV;， 则 在 显著 性 水 平 0.05 下 ， 成 对 之 
差 是 显著 的 ， 因此 我 们 得 出 相应 的 两 个 总 体 比 率 不 同 。 成 对 比较 方法 的 最 后 一 步 汇 总 在 表 12-5 中 。 


“ 表 12-5 汽车 品牌 忠诚 度 研究 的 成 对 比较 检验 





te / |p,=5| CV, 如 果 | 万 -万 | > CVy， 则 显著 
雪佛兰 羚羊 与 福特 Fusion 0.0480 0.1380 不 显著 
雪佛兰 羚羊 与 本 田 雅阁 0.1509 0. 1379 显著 


福特 Fusion 与 本 田 雅 阅 0. 1029 0. 1198 不 显著 


从 成 对 比较 方法 得 出 的 结论 是 只 有 雪佛兰 羚羊 与 本 田 雅 阁 的 顾客 品牌 忠诚 度 之 间 旺 现 显著 差异 。 我 们 的 样本 
结果 显示 本 田 雅 阅 车 主 表明 他 们 可 能 再 次 购买 本 田 雅 阅 有 较 大 的 总 体 比 率 ， 因 此 ， 我 们 能 够 得 出 本 田 雅 阅 (= 
0.7029) 比 雪佛兰 羚羊 ( 亏 =0.5520) 具有 较 大 的 顾客 品牌 忠诚 度 。 
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人 研究 结果 对 比较 福特 Fusion 的 忠诚 度 是 不 确定 的 。 当 与 雪佛兰 羚羊 或 本 田 雅阁 相 比 较 时 ， 福 特 了 usion 没有 显 
示 出 显著 差异 。 就 顾客 品牌 忠诚 度 而 言 ， 较 大 的 样本 或 许 显示 出 福特 Fusion 与 其 他 两 种 品牌 的 汽车 之 间 有 显著 差 


异 。 对 于 多 重 比较 方法 ， 显 示 研 究 中 某 些 成 对 比较 的 显著 性 ， 
注释 和 评论 


甚至 不 显示 其 他 成 对 比较 的 显著 性 是 很 常见 的 。 


1. 在 第 10 章 中 ， 我 们 使 用 标准 正 态 分 布 和 检验 统计 量 z 进 行 两 个 总 体 比 率 的 假设 检验 。| 然 而 ， 未 节 介 绍 的 所 
检验 也 可 以 用 于 进行 两 个 总 体 比率 相等 的 假设 检验 。 在 这 两 个 检验 方法 下 ， 检 验 的 结果 是 相同 的 ， 而 且 检 
验 统计 量 X 的 数值 是 检验 统计 量 z 的 数值 的 平方 。 第 10 章 方法 的 优点 是 它 既 可 以 用 于 关于 两 个 总 体 比率 
的 单 侧 和 检验， 也 可 以 用 于 双 侧 答 验 ， 而 本 节 的 多 检验 只 能 用 于 双 侧 检验 。 练 习 12.6 对 两 个 总 体 比 率 相 等 


的 假设 ， 给 你 一 个 使 用 X 检验 的 灿 会 。 
2. 本 节 中 此 个 总 体 中 的 每 一 个 都 有 两 种 回答 结果 ; “是 " 


或 “ 否 ”。 事 实 上 ， 每 一 个 总 体 服从 三 项 分 布 ， 其 


参数 为 p 为 回答 “是 ”的 总 体 比率 。 当 卡 个 总 笨 中 的 每 一 个 有 3 个 或 更 多 种 可 能 的 回答 时 ， 本 节 X 方法 有 
一 个 扩展 应 用 ， 这 时 ， 每 一 个 总 体 服从 多 项 分 布 。 XX 计算 的 期 望 频数 e; 以 及 检验 统计 量 针 ， 与 式 (12-1) 
和 (12-2) 相同 。 唯 一 不 同 的 是 原 假设 ， 原 假设 为 对 于 所 有 总 体 回 答 变量 的 多 项 分 布 是 相同 的 。k 个 总 体 
中 的 每 一 个 都 有 7 种 回答 ,检验 统计 量 XX 的 自由 度 为 
个 总 体 ， 将 给 你 一 个 使 用 XX 检验 的 机 会 。 





方法 

2. 参见 练习 1 的 观察 频数 。 
a 计算 每 个 总 体 的 样本 比率 。 
b. 在 显著 性 水 平 0.05 下 ， 使 用 多 重 比较 方法 确定 0 

哪些 总 体 比 率 差异 显著 。 

应 用 

4，Benson 制造 厂 考 虑 从 三 家 不 同 的 供应 商 处 订购 电子 
部 件 。 就 质量 而 言 ， 有 缺陷 部 件 的 比率 或 百分比 可 
能 由 于 供应 商 的 不 同 而 不 同 。 为 了 评估 供应 商 有 缺 
陷 部 件 的 比率 ，Benson 从 每 个 供应 商 中 抽取 一 批 次 
的 500 个 部 件 的 组 成 一 个 样本 ， 其 中 有 缺陷 部 件 和 
良好 部 件数 量 如 下 : 


供应 商 
部 件 
A B C 
有 缺陷 15 20 40 
良好 485 480 460 


a 建立 一 个 可 以 用 来 检验 三 家 供应 商 提供 的 有 缺陷 
部 件 比 率 相等 的 假设 。 
b. 在 显著 性 水 平 0.05 下， 进行 假设 检验 。p- 值 有 是 


日 ”练习 6 说 明 当 假设 是 关于 两 个 总 体 比率 相等 时 ， 可 以 使 用 xX 检验 。 


(7 一 1)(k-1)。 练 习 12.8 对 比较 服从 多 项 分 布 的 三 


多 少 ? 你 的 结论 如 何 ? 

c. 进行 多 重 比 较 恰 验 以 确定 是 否 符 在 最 佳 供应 商 或 
是 否 有 供应 商 因 质 量 差 而 可 能 被 淘汰 。 

一 家 报税 公司 想 比 较 该 公司 两 个 地 区 杰 事 处 的 工作 

质量 5 显示 料 本 报税 单 中 出 错 申报 单数 和 正确 申报 

单数 的 观察 频数 如 下 : 


地 区 办 事 处 
和 办 事 处 1 办 事 处 2 
出 错 35 27 
正确 215 273 


a. 两 个 办 事 处 出 错 申 报 单 的 样本 比率 是 多 少 ? 

b. 利用 X 检验 方法 确定 两 个 办 事 处 的 出 错 率 的 总 体 
比率 之 间 是 否 存在 显著 差异 。 在 显著 性 水 平 0. 10 
下 寺 检 验 原 假设 Hu :p, =p,。p- 值 是 多 少 ? 你 的 结 
论 如 何 ? 《( 注 : 当 有 三 个 或 多 个 总 体 时 ， 我 们 通 
常 使 用 比率 相等 的 1 检验， 但 这 个 例子 表明 针 
检验 同样 可 以 用 于 检验 两 个 总 体 比 率 的 相等 性 。) 

6. 在 10.2 节 ， 使 用 5 检验 进行 了 上 壕 检 验 检验 统 
计量 六 ， 或 答 验 统计 量 z 能 都 可 以 用 于 检验 假设 。 
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然而 ， 当 我 们 想 要 对 两 个 总 体 比 率 进 行 推断 时 ， wo 
我 们 通常 首选 z 检验 方法 。 对 于 两 个 总 体 比 率 的 AB 
推断 ， 参 见 本 节 末 的 注释 ,评价 为 什么 检验 统计 二 和 、 下 
量 z 能 给 使 用 者 提供 更 多 的 选项 。 良好 130 126 124 
8 某 工厂 考虑 从 三 个 和 不同 的 供 货 商 处 购买 部 件 。 从 供 Errewrrr 全 7 可- 学 
货 商 处 收 到 的 部 件 被 分 级 为 有 次 要 缺陷 、 有 主要 缺 利用 上 述 数 据 ， 进 行 一 个 假设 检验 ， 以 确定 三 个 供 


陷 和 良好 。 从 每 个 供 俩 商 得 到 的 部 件 样 本 的 检测 结 货 商 的 缺陷 部 件 的 分 布 是 否 相 同 。 使 用 本 节 所 介绍 
果 如 下 表 所 示 。 注 意 对 这 些 数据 进行 的 检验 不 再 是 的 X 检验 计算 ,不 同 的 是 具有 7r 行 和 < 列 的 表 将 导 


三 个 总 体 比率 的 检验 ， 因 为 分 类 型 回答 变量 有 三 个 致 检验 统计 量 X 的 自由 度 为 (r-1) (c -1)。 在 显 
结果 : 次 要 缺陷 、 主 要 缺陷 和 良好 。 著 性 水 平 0.05 下 ，p- 值 是 多 少 ? 你 的 结论 如 何 ? 
12.2 独立 性 检验 


xX 检验 的 二 个 重要 应 用 是 利用 样本 数据 检验 两 个 分 类 变量 的 独立 性 ， 为 了 这 个 检验 , 我们 从 一 个 总 体 中 抽取 
样本 ， 并 记录 两 个 分 类 变量 的 观测 值 。 我 们 通过 对 分 类 变量 1 和 分 类 变量 2 的 每 二 对 组 合 统计 回答 的 个 数 来 汇总 
数据 。 检验 的 原 假设 是 两 个 分 类 变量 独立 。 因 此 ， 这 种 检验 被 称 为 独立 性 检验 (test of independence) 。 我 们 通过 
下 面 的 例子 来 说 明 这 种 检验 。 

啤酒 行业 协会 进行 一 次 调查 以 确定 饮酒 者 对 淡 啤 酒 、 善 通 啤 酒 和 黑 啤 酒 的 啤酒 偏好 。 抽 取 了 200 名 饮酒 者 组 
成 一 个 样本 ,询问 样本 中 每 一 个 人 以 得 到 对 三 种 类 型 啤酒 ( 淡 啤 酒 。 普通 啤 酒 和 黑 啤 酒 ) 的 偏好 。 在 调查 问卷 最 
后 ， 要 求 回答 者 提供 包括 性 别 -( 男 性 或 女性 ) 等 大 量 的 人 日 统计 学 信息 。 相 关 的 研究 问题 是 三 种 类 型 的 啤酒 偏好 
是 否 与 饮酒 者 的 性 别 独立 。 如 果 两 个 分 类 变量 一 一 啤酒 偏好 和 饮酒 者 性 别 独 立 ， 则 啤酒 偏好 将 不 依赖 于 饮酒 者 性 
别 ， 且 可 以 期 待 男性 和 女性 饮酒 者 对 淡 啤 酒 、 普 通 啤 酒 和 黑 啤酒 的 偏好 相同 。 然 而 ， 如 果 检 验 的 结论 是 两 个 分 类 
变量 不 独立 ; 我 们 将 有 啤酒 偏好 与 饮酒 者 的 性 别 有 关 ， 或 啤酒 偏好 与 饮酒 者 的 性 别 不 独立 的 证 据 。 因 此 ， 我 们 可 
以 期 待 男性 和 女性 钦 酒 者 的 偏好 不 同 。 这 样 ， 啤 酒 厂 可 以 利用 这 个 信息 ， 对 男性 和 女性 不 同 的 目标 市 场 采用 不 同 
的 推销 策略 。 

这 个 独立 性 检验 的 假设 如 下 : 

Hu :啤酒 偏好 与 饮酒 者 性 别 独 立 
了 H, :啤酒 偏好 与 饮酒 者 性 别 不 独立 

样本 数据 将 汇总 在 一 张 二 维 表 中 ， 啤 酒 篇 好 (〈 淡 啤酒 、 普 通 啤酒 和 黑 啤 酒 ) 作为 一 个 变量 ， 饮 酒 者 性 别 ( 男 
性 和 女性 ) 为 另 一 个 变量 。 因 为 研究 的 目的 是 确定 男性 和 女性 饮酒 者 的 啤酒 偏好 之 间 是 否 存在 差异 ， 因 此 我 们 考 
虑 将 饮酒 者 性 别 作为 解释 变量 。 遵 循 实践 中 的 惯例 ， 将 解释 变量 作为 表格 中 数据 的 行 变量 ; 啤酒 偏好 是 分 类 回答 
变量 ， 显 示 为 列 变量 。 研 究 中 200 名 饮酒 者 的 样本 结果 汇总 在 表 12-6 中 。 


汇总 的 样本 数据 基于 每 个 回答 者 的 啤酒 信 表 12-6 ”男性 与 女性 饮酒 者 啤酒 偏好 的 样本 资料 (观察 频数 ) 


好 和 性 别 的 组 合 。 例 如 ， 在 研究 中 喜欢 淡 啤酒 we 
的 男性 有 5 从， 喜欢 普通 啤酒 的 男性 有 56 大 ， ”村 性 女性 合计 
等 等 。 现 在 我 们 分 析 表 中 的 数据 ， 并 检验 啤酒 淡 啤 酒 51 39 90 
偏好 与 饮酒 者 性 别 独立 。 啤酒 俩 好 普通 啤酒 56 21 77 
首先 ， 既 然 我 们 选择 了 一 个 饮酒 者 的 样 Se 本 


本 ， 分 别 对 每 一 个 变量 进行 数据 汇总 ,将 得 到 一 rr 
饮酒 者 总 体 特 征 的 一 些 内 在 性 质 。 对 饮酒 者 性 别 这 个 分 类 变量 ， 我 们 看 到 样本 的 200 人 中 有 132 人 是 男性 ， 这 给 
出 饮酒 者 总 体 中 男性 比率 的 估计 值 为 132/200 = 0. 66 或 66% 。 同 样 ， 饮 酒 者 总 体 中 女性 比率 的 估计 值 为 68/200 = 
0.34 或 34% 。 因 此 ， 男 性 饮酒 者 与 女性 饮酒 者 人 数 之 比 近似 为 2 比 1。 三 种 类 型 啤酒 的 样本 比率 或 百分比 如 下 ， 
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偏好 淡 啤 酒 
偏好 普通 啤酒 
偏好 里 啤酒 


907200 = 0.450 或 45% 
77/200 = 0.385 或 38.5% 
33/200 = 0. 165; 或 16.5% 


综合 样本 中 的 所 有 饮酒 者 ， 最 常见 的 啤酒 偏好 是 淡 啤 酒 ， 最 不 常见 的 啤酒 偏好 是 黑 啤 酒 。 


现在 我 们 进行 X 检验 以 确定 啤酒 偏好 与 饮酒 者 性 别 独 立 。 这 里 的 计算 结果 和 所 用 的 公式 与 12. 1 节 中 所 
用 的 X 检验 相同 。 利 用 表 12-6 中 第 i 行 和 第 j 列 的 观察 频数 太 ， 在 假定 啤酒 偏好 与 饮酒 者 性 别 独立 的 条 件 
下 ， 我 们 计算 期 望 频数 。。 期 望 频数 遵循 12. 1 节 同 样 的 逻辑 和 所 用 的 公式 ， 因 此 第 i 行 和 第 j 列 的 期 望 频 


数 e; 为 


例如 ， 如 果 啤 酒 偏 好 与 饮酒 者 性 别 独立 ， 则 eu = (90 x132)/200 =59. 40 是 男性 中 偏好 淡 啤 酒 的 期 望 频数 。 因 此 ， 


“第 之 行 合计 数 x 第 7 列 合计 数 


样本 容量 


可 以 利用 式 (12-4) 确定 表 12-7 中 的 其 他 期 望 频数 。 


按照 第 12. 1 节 X 检验 方法 ,我 们 用 下 列 


表达 式 计算 检验 统计 量 X 的 数值 : 
2 ,一 e,)” 
x 





(12-5) 


对 于 7 行 和 。 列 的 表 , XX 分 布 的 自由 度 为 。 ”出 寻 
(r-1) x (c=1)， 和 且 每 个 单元 格 的 期 望 频数 都 
大 于 或 等 于 5。 因 此 ， 在 这 个 应 用 中 ， 我 们 将 
使 用 自由 度 为 (3 -1) x (2-1) =2 的 X 分 布 。 计 算 检验 统计 量 X 的 完整 步 又 汇总 在 表 12-8 中 。 


表 12-8 ”路 酒 偏好 与 饮酒 者 性 别 独立 的 检验 统计 量 X 的 计算 


罚 酒 偏好 性 别 ey 
淡 啤 酒 男性 51 
淡 啤 酒 女性 39 
普通 啤酒 男性 56 
普通 啤酒 女性 21 
黑 啤 酒 男性 25 
黑 啤 酒 女性 8 
合计 200 


我 们 可 以 使 用 自由 度 为 2 的 X 分 布 的 上 侧面 积 和 p- 值 法 ， 


期 望 频数 ( er) 


59.40 
30. 60 
50. 82 
26. 18 
21278 
11.22 

200 


拒绝 。 利 用 表 1224 的 志 分 布 表 的 第 2 行 ， 我 人 有 如 下 信息 : 


上 侧面 积 0. 10 


0. 05 


淡 啤 酒 
普通 啤酒 
黑 啤酒 
合计 


差 
( 方 -=ej) 
-8.40 
8.40 
5. 18 
-5. 18 
3.22 
-3.22 


0.025 ， 


男性 
59. 40 
50. 82 
21.78 

132 


差 的 平方 

(fi —8;) . 
70. 56 
70. 56 
26. 83 
26. 83 
10. 37 
10, 37 


0. 01 


(12-4) 


表 12-7 在 啤酒 偏好 与 饮酒 者 性 别 独立 时 的 期 望 频数 


饮酒 者 性 别 
女性 合计 
30; 60 90 
26. 18 77 
11.22 33 
68 200 
差 的 平方 除 以 期 望 频数 


(万 =61) /ey 
1. 19 

2. 31 

0.53 

1. 02 

0.48 

0.92 
X=6.45 


来 确定 啤酒 偏好 与 饮酒 者 性 别 独 立 的 原 假设 是 否 被 





x 值 (df=2) 


因此 ,我们 看 到 X =6. 45 的 上 侧面 积 介 于 0. 025 ~0,05， 所 以 相对 应 的 上 侧面 积 或 p- 值 必 介 于 0. 025 ~0. 05。 
由 于 p- 值 所 a=0.05, 我 们 拒绝 He， 并 得 出 啤酒 偏好 与 饮酒 者 性 别 不 独立 的 绪论 。 另 一 种 方法 陈述 ， 研 究 显示 可 
以 期 待 男性 和 女性 饮酒 者 的 啤酒 偏好 不 同 。 可 以 利用 附录 下 中 提供 的 Minitab 或 Excel 程序 ， 对 于 自由 度 为 2， 


xX =6.45 对 应 的 产值 为 0.039 8。 
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不 使 用 P 值 法 ,我 们 可 以 使 用 临界 值 法 得 到 相同 的 结论 。 对 于 a=0.05 和 自由 度 为 ?， 检 验 细 
MY = 991。 上 全 的 抱 法 则 为 和 | 
_ 如 果 X 宇 5.991, 则 拒绝 Hi 
由 于 6.45>5.991， 我 们 拒绝 H,。 因 此 ， 我 们 再 次 看 到 p- 值 法 和 临界 值 法 得 到 相同 的 候 设 检验 结论 。 
现在 我 们 有 啤酒 偏好 与 饮酒 者 性 别 不 独立 的 证 据 ， 我 们 需要 从 数据 中 得 到 另外 的 内 在 特征 ， 来 评估 这 两 个 变 
量 之 间 的 关系 。 一 种 方法 是 分 别 计算 男性 和 女性 饮酒 者 啤酒 偏好 的 概率 。 这 些 计算 结果 如 下 : 





“啤酒 偏好 男性 女性 
淡 啤 酒 | 51/132 =0.3864 或 38. 64% 39/68 =0. 573 5 或 57.35% 
普通 啤酒 ”56/132 =0, 424 2 或 42.42% 21/68 =0. 308 8 或 30. 88% 
黑 哗 酒 25/132 =0. 189 4 或 18. 94% 8768 =0:1176 或 11:76% 


男性 和 女性 饮酒 者 三 种 类 型 啤酒 的 条 形 图 如 图 12-1 所 示 。 
对 于 啤酒 偏好 和 饮酒 者 性 别 之 间 的 关系 ， 你 能 得 到 什么 样 的 
观察 结果 ? 对 于 样本 中 的 女性 饮酒 者 ， 最 受 欢 迎 的 是 淡 啤 酒 ，_、 
占 57. 35% 。 对 于 样本 中 的 男性 饮酒 者 ， 最 受 欢 迎 的 是 普通 啤 
酒 ， 占 42. 42% 。 同 时 女性 饮酒 者 比 男性 饮酒 者 对 于 淡 啤 酒 有 较 
高 偏好 ， 而 男性 钦 酒 者 中 对 于 普通 啤酒 和 黑 啤 酒 有 较 高 偏好 。， 
通过 图 12-1 这 样 的 条 形 图 ， 数 据 可 视 化 有 助 于 得 到 两 个 分 类 变 
量 内 在 关系 。 

在 我 们 结束 讨论 之 前 ， 和 们 站 立 性 检 的 步 如下 








最 后 ， 如 果 独 立 的 原 假设 被 拒绝 ， 像 上 述 例子 那样 汇总 概率 有 助 于 分 析 者 确定 两 个 分 类 变量 存在 的 关联 或 相 
关 性 。 





© 期 望 频数 都 大 于 或 等 于 5， 对 于 好 检验 是 有 效 的 。 
日 x 检验 也 是 一 个 单 侧 检 验 ，Ho 的 拒绝 域 在 自由 度 为 (r -1)(c -1) 的 XX 分 布 的 上 三。 
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方法 


10. 


下 表 给 出 了 一 个 容量 为 240 的 样本 的 观察 频数 。 在 


aq=0.05 下 ， 检 验 行 变 量 与 列 变量 的 独立 性 。 


列 变量 
行 变 最 A B 人 
20 30 20 
0 30 60 25 
R 10 15 30 


应 用 
12. 德勤 就 业 调查 对 人 力 资 源 主 管 进行 了 一 次 抽样 调 


14. 


查 ， 询 问 在 接 下 来 的 12 个 月 中 他 们 公司 计划 如 
何 改 变 劳 动力 状况 (INC. Magazine，2012 年 2 
月 )。 一 个 分 类 回答 变量 有 三 个 选项 : 公司 计划 
雇用 和 增加 员工 的 数量 、 公 司 计划 不 改变 员工 的 
数量 或 公司 计划 解雇 和 减少 员工 的 数量 。 田 一 个 
分 类 变量 显示 公司 是 私立 或 公立 。180 家 公司 的 
样本 数据 汇总 如 下 ， 


公司 类 型 
雇用 计划 私立 A 
增加 员工 37 32 
不 改变 19 34 
减少 员工 16 42 


a 在 显著 性 水 平 0.05 下 ， 进 行 独 立 性 检验 以 接 下 
来 的 12 个 月 中 雇用 计划 是 否 与 公司 类 型 独立 。 
你 的 结论 如 何 ? 

b. 讨论 接 下 来 12 个 月 的 私立 公司 和 公立 公司 殿 用 
计划 的 不 同 。 

汽车 质量 调查 对 新 车 主 询问 了 大 量 关 于 他 们 新 近 

购买 汽车 的 问题 (J].D. Power and Associates ，2012 

年 3 月 )。 对 车 主 询问 的 一 个 问题 是 对 车 辆 的 评价 ， 

评价 按 一 般 、 杰 出 和 不 寻常 分 类 。 另 一 个 问题 询问 

车 主 的 教育 水 平 ， 教 育 水 平 按 近 似 高 中 、 高 中 华 

业 、 近 似 大 学 和 大 学 毕业 分 类 。 假 设 最 近 购 买 汽 车 


的 500 名 车 主 的 样本 数据 如 下 : 
教育 水 平 
质量 ?级 “过 似 高 中 高 中 毕业 ”近似 大 学 ”大 学 毕业 
一 般 35 30 20 60 
杰出 45 45 50 90 


18. 


a 在 显著 性 水 平 0.05 下 ,进行 独 立 性 检验 以 确定 
新 车 主 的 质量 评价 是 否 与 其 教育 水 平 独立 。p- 
值 是 多 少 ? 你 的 结论 如 何 ? 

b. 利用 一 般 、 杰 出 和 不 寻常 的 总 的 百分比 ， 评论 
新 车 主 对 他 们 新 近 购 买 汽车 的 质量 的 评价 。 


由 于 石油 价格 的 上 涨 ， 在 全 世界 范围 内 增加 了 


对 替代 能 源 的 兴趣 。《 人 金融 时 报 》 在 6 个 国家 
所 做 的 一 次 哈里 斯 民意 调查 ,评估 了 民众 对 各 
种 能 源 替 代 形 式 的 态度 (Harris Interactive web- 
site，2008 年 2 月 27 日 )。 下 表 的 数据 是 人 们 
是 否 支 持 和 反对 建设 新 核电 站 的 部 分 调查 
结 采 。 


国家 
民众 态度 
英国 “法 国 ”意大利 西班牙 ”德国 ”美国 
坚决 支持 141 161 298 133 128 204 
支持 天 于 反对 348 366 309. 22 212 326 
反对 大 于 支持 381 a IO -99 316 


389 174 


坚决 反对 2470 Si 


a, 这 一 调查 的 样本 容量 是 多 大 ? 

b. 进行 检验 假设 以 确定 人 们 对 建设 新 核电 站 的 态 
度 与 国家 是 否 独 立 。 你 的 结论 如 何 ? 

c. 根据 “坚决 支持 ”和 “支持 大 于 反对 ”回答 者 
的 百分比 ， 哪 个 国家 最 上 赞成 建设 新 核电 站 ? 哪 
个 国家 最 不 赞成 ? 

在 辛 迪 加 的 电视 节目 中 关于 哪 部 影片 最 好 ， 两 

位 主持 人 经 常 给 人 造成 强烈 争执 的 印象 。 每 部 

电影 观感 按 “ 赞 成"“ 星 斥 ” 或 “褒贬 和 滨 有 ” 

来 分 类 。 两 位 主持 人 对 160 部 电影 的 评价 结果 

如 下 。 


主持 人 人 A ee 

贬斥 襄 贬 峭 有 赞成 
贬斥 24 8 13 
衰 贬 名 有 8 13 11 
称 次 10 9 64 


在 显著 性 水 平 0.01 下 ， 用 独立 性 检验 分 析 数 据 。 
你 的 结论 如 何 ? 
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12. 3 拟 合 优 度 检 验 


在 本 节 ， 我 们 使 用 X 检验 来 确定 一 个 被 抽样 的 总 体 是 否 服从 某 个 特殊 的 概率 分 布 。 首 先 我 们 考虑 总 体 服从 一 个 
历史 的 多 项 概率 分 布 情形 ， 并 使 用 拟 合 优 度 检 验 来 确定 新 的 样本 数据 的 总 体 分 布 在 与 历史 的 分 布 相 比较 中 ， 是 否 显 
示 存 在 改变 。 然 后 我 们 考虑 假设 总 体 服从 正 态 概 率 分 布 的 情形 。 在 这 种 情况 下 ,我 们 利用 分 布 拟 合 检验 来 确定 样本 
数据 是 否 显 示 正 态 概率 分 布 的 假设 是 适当 还 是 不 适当 。 这 两 个 检验 都 被 称 为 拟 合 优 度 检验 (goodness of fit test) 。 


12. 3. 1 多 项 概率 分 布 
对 于 多 项 概率 分 布 (multinomial probability distribution) 8 ， 总 体 中 的 每 一 个 个 体 被 分 配 到 三 个 或 多 个 类 中 的 一 
个 且 仅 一 个 。 作 为 一 个 例子 ， 考 虑 Scott 市 场 调查 公司 进行 的 市 场 份额 研究 。 在 过 去 的 一 年 中 ， 公 司 A 的 市 场 份 
额 稳定 在 30% ， 公 司 B 稳 定 在 50% ， 公司 C 稳定 在 20% 。 因为 每 一 名 顾客 可 以 按照 购买 这 些 公司 的 产品 来 进行 
分 类 ， 因 此 我 们 得 到 一 个 三 种 可 能 结果 的 多 项 概率 分 布 。 三 个 结果 中 每 一 种 的 概率 如 下 
p, 一 一 顾客 购买 公司 A 产品 的 概率 
ps 一 一 顾客 购买 公司 B 产品 的 概率 
pe 一 一 顾客 购买 公司 C 产品 的 概率 
利用 历史 的 市 场 份额 ， 我 们 有 多 项 概率 分 布 5: p、 =0.30, ps =0.50 好 pc =0.20。 
公司 C 开 发 了 一 种 “新 型 改进 ”产品 ， 以 取代 当前 市 场 上 该 公司 所 售 产品 。Secoti 市 场 调查 公司 受 麻 于 公司 
C， 目 的 是 判断 新 产品 是 否 使 三 家 公司 的 市 场 份 额 发 生 了 改变 。 特 别 地 ，Seott 市 场 调查 公司 将 向 一 个 顾客 样本 介 
绍 公司 C 的 新 产品 ， 然 后 询问 顾客 对 于 公司 A、 公 司 B 及 公司 C 新 产品 的 偏好 。 基 于 样本 数据 ， 可 以 使 用 下 列 假 
设 检 验 来 确定 公司 C 的 新 产品 是 否 改变 了 三 家 公司 的 历史 市 场 份 额 。 
Be- pa = 030 ws = Q50, pe = 0.20 
H,:; 总 体 比 率 不 是 p、 = 0.30， ps = 0.50， p= 0.;20 
原 假设 基于 市 场 份额 的 历史 的 多 项 概率 分 布 。 如 果 样 本 结果 导致 H, 被 拒绝 ， 则 Scott 市 场 调查 公司 有 证 据 表 
明 新 产品 的 引进 影响 了 市 场 份额 。 
让 我 们 假定 市 场 调查 公司 对 200 名 顾客 进行 了 调查 ， 询 问 每 一 名 顾客 对 于 公司 A、 公 司 B 及 公司 C 新 产品 的 
购买 偏好 。200 份 答卷 的 汇总 结果 如 下 。 


观察 频数 
公司 A 的 产品 公司 B 的 产品 公司 C 的 新 产品 
48 


98 54 


现在 我 们 进行 拟 合 优 度 检验 ， 来 确定 200 名 顾客 购买 偏好 与 原 假设 是 否 相 符 。 与 其 他 X 检验 一 样 ， 拟 合 优 度 
检验 基于 样本 的 观察 频数 与 原 假 设 为 真 时 的 期 望 频 数 的 相 比 较 。 因 此 ， 下 一 步 就 要 在 假设 可:p、 =0.30，m = 
0. 50，p。 =0. 20 为 真 时 ， 计 算 200 名 顾客 的 期 望 购买 偏好 ， 由 此 得 到 期 望 频数 如 下 。 


期 望 频数 
公司 A 的 产品 公司 B 的 产品 公司 人 C 的 新 产品 
200 x0. 30 =60 200 x0. 50 =100 200 x0. 20 =40 


注意 每 一 类 的 期 望 频数 是 样本 容量 200 与 每 一 类 的 假设 比率 的 乘积 。 
现在 ， 拟 合 优 度 检 验 重点 关注 观察 频数 与 期 望 频数 之 间 的 差异 。 观 察 频数 与 期 望 频数 之 间 差 异 的 大 小 ， 可 以 
借助 以 下 检验 统计 量 * 来 衡量 。 


加 ”多 项 概率 分 布 是 二 项 概率 分 布 每 次 试验 有 三 个 或 多 个 结果 情形 的 推广 。 
加 ”多 项 概率 分 布 的 概率 之 和 等 于 1。 


276 商务 与 经 济 统计 





让 我 们 继续 Scott 市 场 调查 例 了 于， 并 利用 样本 数据 来 检验 假设 ， 多 项 总 体 有 市 场 份额 的 比例 pa =0.30, ps = 
0. 50 及 p。 =0. 20 保持 不 变 。 我 们 在 显著 性 水 平 a =0. 05 下 ， 用 观察 频数 和 期 望 频 数 来 计算 检验 统计 量 的 数值 。 
ar 在 表 12-9 中 给 出 了 检验 统计 量 X 计算 结果 。 我 们 得 到 X =7134。 


_ 表 12-9 Seott 市 场 调查 公司 的 市 场 份额 研究 中 检验 统计 量 x 的 计算 








ee 
公司 A 0. 30 48 60 一 12 144 2. 40 
公司 B 0. 50 98 100 -2 4 0. 04 
公司 C . 0.20 54 40 14 196 4. 90 
合计 200 X=7.34 


”如 时 观察 频数 和 期 望 频数 之 间 差异 很 大 ， 我 们 将 拒绝 原 假设 。 因 此 ， 拟 合 优 度 检验 总 是 上 侧 检 验 S， 我 们 可 
以 用 检验 统计 熙 的 上 侧面 积 和 户 值 法 来 确定 原 假设 是 否 被 拒绝 。 由 于 自由 度 为 -1=3-1=2, 利用 表 12-4 的 多 
分 布 表 的 第 2 行 ， 我 们 有 如 下 信息 : 


上 侧面 积 0. 10 0.05 0. 025 0.01 0. 005 


¥ =7:34.. 





x 数值 (qdf =2) 


检验 统计 量 X =7. 34 介 于 5. 991 ~7.378， 因 此 相应 的 上 侧面 积 或 p- 值 必 介 于 0.025 ~0.05。 由 于 p- 值 <a = 
0.05 ， 我 们 拒绝 H,。， 并 得 出 公司 C 引进 新 产品 将 改变 历史 的 市 场 份额 的 结论 。 可 以 利用 附录 下 中 的 Minitab 或 
Excel 程 序 ， 得 到 xX E7 34 对 应 的 p- 值 为 0.025 5。 

不 用 产值 法 -我们 还 可 以 使 用 临界 值 法 得 到 相同 的 结论 。 由 于 a=0.05 和 自由 度 为 2， 则 检验 统计 量 的 临界 
值 为 os = 5.991， 上 侧 检验 的 拒绝 法 则 变 为 

如 果 X 宇 5.991, 则 拒绝 H。 

由 于 7. 34 >5.99， 所 以 我 们 拒绝 H。。P- 值 法 和 临界 值 方 法 ， 能 得 到 假设 检验 相同 的 结论 。 

现在 我 们 有 C 公司 引进 新 产品 将 改变 三 个 公司 的 市 场 份 额 的 结论 ， 我们 有 兴趣 知道 关于 市 场 份额 如 何 变 动 的 
更 多 信息 。 利 用 历史 的 市 场 份 额 和 样本 数据 ， 我 们 汇总 数据 如 下 : 


公司 历史 市 场 份额 (% ) 市 场 份额 的 样本 数据 ( % ) 
A 30 48/200 =0, 24 或 24% 
B 50 98/200 =0. 49 或 49% 
Cr 20 54/200 =0.27 或 27% 


日 ” 拟 合 优 度 检验 总 是 单 侧 检 验 ， 检 验 的 拒绝 域 位 于 X 分 布 的 上 侧 。 
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J 水 较 的 条 形 图 如 图 12-2 所 示 。 数 据 可 视 化 方法 显示 新 产品 将 增加 公司 C 的 市 


Cr 


7 a 历史 市 场 份额 
站 公司 C 新 产品 之 后 





。 ”图 12-2 公司 C 引进 新 产品 前 后 的 市 场 份额 的 条 形 图 











a we 在 总 体 服从 正 态 分 布 的 假设 下 ， 将 样本 数据 的 若干 
xi 因为 正 态 分 布 是 连续 型 的 ， 我 们 必须 修正 定义 类 别 的 方式 以 及 计算 期 望 频 
数 的 方法 。 让 12:10- 中 Chemline 公司 求职 者 的 测验 数据 ， 来 阐述 正 态 分 布 的 拟 合 优 度 检验 。 


w 于 12-10 , Chemiline 公司 随机 选取 50 名 求职 者 的 能 力 测验 分 数 





71 66 61 65 54 93 60 86 70 70 73 13 
55 63 56 62 76 54 82 79 76 68 53 58 
85 80 56 61 61 64 65 62 90 69 76 79 
77 54 64 74 65 65 61 56 63 80 56 71 
79 84 


Chemline 公司 每 年 为 其 遍布 美国 的 4 家 工厂 招聘 大 约 400 各 清 堪 出。 CR 
现 正 态 分 布 。 如 果 呈 现 正 态 分 布 ， 则 可 以 根据 这 个 分 布 评 估 有 具体 分 数 ， 即 可 以 迅速 判断 出 前 20% 人 的 分 数 、 
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40% 人 的 分 数 ， 等 等 。 因 此 ,我 们 试图 检验 测验 分 数 总 体 服从 正 态 分 布 的 原 假设 。 
首先 ， 我 们 利用 表 12-10 中 的 数据 估计 原 假设 中 要 考虑 的 正 态 分 布 的 均值 和 标准 差 。 我 们 用 样本 均值 * 和 样 
本 标准 差 s 作 为 正 态 分 布 均值 和 标准 差 的 点 估计 。 计 算 结 果 如 下 : 


= Mi Sy 
尖 活 = 68. 42 


/ 卫 ( 雹 一 %)” /5 310. 0369 
# 六 = 二 49 = 0., 41 


利用 这 些 数值 ， 我 们 提出 关于 求职 者 测验 分 数 分 布 的 假设 如 下 : 
Hu :测验 分 数 总 体 服从 均值 为 68. 42 和 标准 差 为 10. 41 的 正 态 分 布 
H.。: 测 验 分 数 总 体 不 服从 均值 为 68. 42 和 标准 差 为 10.41 的 正 态 分 布 
所 假设 的 正 态 分 布 如 图 12-3 所 示 。 
由 于 正 态 分 布 是 连续 型 的 ， 我 们 必须 采取 不 同 的 方法 来 定义 类 别 。 我 们 需要 利用 测验 分 数 的 区 间 来 定义 类 别 。 
回顾 以 上 关于 每 个 区 间或 类 别 中 期 望 频数 至 少 为 $ 的 法 则 。 我 们 定义 测验 分 数 的 类 别 时 ， 也 必须 使 每 一 类 的 
期 望 频数 至 少 为 5。 由 于 样本 容量 为 350， 一 种 方法 是 将 正 态 分 布 划分 为 10 个 等 概率 区 间 ( 见 图 12-4) 。 由 于 样本 
容量 为 50 ， 我 们 可 以 期 望 每 个 区 间或 类 别 中 有 5 个 结果 ， 关 于 期 望 频数 至 少 为 5 的 法 则 也 满足 了 。” 






标准 差 10.41 





值 68. 


12-3 ”Chemline 公司 求职 者 测验 分 数 假设 的 正 态 分 布 图 12-4 Chemline 公司 例子 的 10 个 等 概率 区 间 的 正 态 分 布 
注 ， 每 个 区 间 的 概率 为 0. Ls 


我 们 进一步 考察 计算 类 别 边界 的 方法 。 当 假定 为 正 态 概率 分 布 时 ， 标 准 正 态 概率 表 可 以 用 于 确定 这 些 边 界 。 
首先 考虑 最 低 10% 的 测验 分 数 的 分 界 值 。 根 据 标准 正 态 分 布 表 ， 我 们 得 到 该 测验 分 数 对 应 的 z 值 为 -1.28。 因 此 ， 
分 数 x=68.42 -1.28 xl10.41 =55. 10 是 最 低 10% 的 分 界 值 。 对 于 最 低 20% 的 情形 ， 我 们 得 到 z= -0.84， 于 是 x = 
68. 42 -0. 84 x 10. 41 =59. 68。 用 这 种 方法 处 理 整 个 正 态 分 布 ， 得 到 下 列 测验 分 数值 。 


百分比 《多 ) z 值 测验 分 数 
10 -1.28 68.42 -1.28 x10.41 =55. 10 
20 一 0. 84 68. 42 —0. 84 x 10.41 =59. 68 
30 -0;32 68.42 -0.52x10.41 =63. 01 
40 -0.25 68. 42 —0. 25 x 10. 41 =65. 82 
$0 0.00 68. 42 +0.00 x10.41=68.42 
60 +0. 25 68. 42 +0.25 x10.41 =71.02 
70 +0, 52 68. 42 +0.52 x10.41 =73. 83 
80 +0. 84 08. 42 +0.84 x10.41 =77.16 
90 +1.28 08. 42 +1.28 x10.4]1 =81. 74 


名， 对 于 连续 型 概率 分 布 ， 依 据 使 每 个 区 间 中 的 期 望 频 数 至 少 为 5 的 法 则 来 建立 区 间 。 
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这 些 区 间 的 分 界 值 或 边界 点 已 标注 在 图 12-4 中 。 
现在 测验 分 数 的 类 别 或 区 间 已 定义 好 了 ,， 且 









表 12-11 Chemline 
已 知 每 一 类 的 期 望 频数 为 5， 我 们 可 以 回 到 测验 分 数 区 间 
表 12-10 的 样本 数据 中 来 确定 这 些 类 别 中 的 观察 55. 10 以 下 
频数 。 由 此 得 出 表 12-11 的 结果 。 eb hs 


利用 表 12-11 中 的 计算 结果 ， 拟 合 优 度 检验 63. 01 ~65. 82 
的 计算 过 程 与 前 面 完 全 一 样 。 即 我 们 通过 计算 Te 
的 数值 来 比较 观察 频数 与 期 望 频数 。 检 验 统计 量 71. 02 ~73. 83 
X 的 必要 计算 结果 列 在 表 12-12 中 ， 我 们 得 到 检 pe 
验 统计 量 的 数值 为 X =7.2。 81.74 以 上 

为 
H。， 我们 需要 参考 适当 的 X 分 布 表 。 利 用 拟 合 优 度 检 验 中 计算 自由 度 的 法 则 ， 我 们 得 到 自由 度 为 上 -P -1=10 - 
2 -1=7， 这 里 有 大 = 10 个 类 别 以 及 由 样本 估计 的 P=2 个 参数 (均值 与 标准 差 ) 。8 


表 12-12 ”Chemline 公司 求职 者 例子 的 统计 量 X 的 计算 


时 与 
a 5 
9 5 
6 身 
2 3 
5 5 
之 和 
5 5 
5 5 
56 5 
50 50 


We 期 望 频数 ” 涩 差 的 平方 差 的 平方 除 以 期 望 频数 
测验 分 数 区 间 观察 频数 ( 用) [en (f -elj i WO a 
55, 10 以 下 , 5 5 0 0 0.0 
55. 10 ~ 59. 68 5 5 0 0 0.0 
59. 68 ~ 63. 01 9 5 4 16 3,2 

.63. 01 ~65.82 6 = 1 1 0.2 
65. 82 -68. 42 2 5 -3 9 1.8 
68;42 ~71.02 5 5 0 0 0.0 
71. 02 ~ 73. 83 2 5 9 1.8 
73. 83 ~77. 16 5 0 0 0.0 
77. 16 ~ 81.74 ; 5 0 0 0.0 
81.74 以 上 36 34 1 1 0.2 
合计 50 50 XY 


假设 我 们 在 显著 性 水 平 0.10 下 ， 检 验 测验 分 数 服 从 正 态 分 布 的 原 假设 。 为 了 检验 这 个 假设 ， 我 们 需要 根据 自 
由 度 为 7 的 X 分 布 确定 XX =7.2 的 上 侧面 积 ， 从 而 确定 p- 值 。 利 用 表 12-4 的 第 7 行 ， 我 们 看 到 X =7. 2 的 上 侧面 
积 超过 0. 10。 因此， 我们 知道 p- 值 天 于 0.10。 利 用 书后 附录 下 中 的 Minitab 或 Excel 程序 得 到 X =7.2 对 应 的 p- 值 
为 0.4084。 由 于 - 值 >0.10， 因 此 ，Chenmiline 公司 求职 者 测验 分 数 服从 正 态 分 布 的 假设 不 能 被 拒绝 。 应 用 正 态 分 
布 可 以 有 助 于 解释 测验 分 数 。 正 态 分 布 的 拟 合 优 度 检验 的 步骤 总 结 如 下 。 





后“ 估计 正 态 分 布 中 的 两 个 参数 将 导致 坟 检验 的 自由 度 减少 2 个 。 
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人 在 显著 性 水 平 0.05 下 ， 用 样本 数据 检验 假设 ; 颜 
有 oe 色 的 总 比率 如 前 所 述 。 你 的 结论 如 何 ? 
六 20， 以 下 数据 被 认为 是 来 自 一 个 正 态 分 布 。 在 ma =0.05 | Y : 
下 ， 进 行 拟 合 优 度 检验 ， 以 检验 这 个 假设 。 et 
人 二 借用 逢 25 002 RS 居于 月 )。 
.A 假设 420 次 交通 事故 的 样本 中 提供 了 如 下 数据 ; 





到 18M5 2 2 好 有 有 的 _ 星 期 日 ”星期 一 ”星期 二 ”星期 三 ”星期 四 “星期 五 星期 六 

27 26 30 28 33 23 29 二 
应 用 a 在 显著 性 水 平 0.05 下 ， 进 行 假 设 检验 以 确定 一 
22. 玛 氏 公司 生产 一 种 世界 上 最 受 欢 迎 的 糖果 品 人 你 的 

牌 一 一 M&M。 牛奶 巧克力 糖果 有 各 种 颜色 ， 其 中 结论 如 何 ? 

.包括 蓝 色 、 神色 、 绿色 、 橙色 、 红色 和 黄色 b. 计算 一 周 中 每 天 发 生 交通 事故 的 比率 。 哪 天 发 


生 交通 事故 的 比率 最 高 ”这 合理 吗 9 请 讨论 。 
26. 某 种 产品 的 每 周 需求 量 被 认为 服从 正 态 分 布 。 在 
a=0.10 下 ， 利 用 拟 合 优 度 检验 以 及 下 列 数据 检验 
这 一 假设 。 样 本 均值 为 24, 5 样本 标准 差 为 3。 
2 
27 25 9 多 机 25 号 妆 带 : 131 29 
7 28 :2 < -=k 


(M&M website , 2012 年 3 月 ) 。 颜 色 的 总 比率 是 : 
蓝 色 0.24， 神色 0.13， 绿色 0.20， 檬 色 0.16， 

”红色 0.13 和 黄色 0.14。 在 二 次 质料 研究 中 ,， 打 “ 

和 开 几 聚 M&M 年 奶 巧克力 ， 得 到 颜色 数量 结果 
如 下 。 


















介绍 了 对 下 的 : ”历史 的 或 理论 的 概率 分 布 。 pe 
1 检验 三 个 或 多 个 总 体 比率 的 相等 性 。 id 上 
2. 检验 两 个 分 类 变量 的 独立 性 。 都 利用 检验 统计 量 X ， 该 统计 量 基于 观察 频数 与 期 户 


3. 检验 一 个 总 体 的 概率 分 布 是 否 服从 一 个 特殊 的 ， 频数 之 间 的 差异 。 在 每 工种 情形 中 ,在 原 假设 为 真 时 ， 


计算 期 望 频数 ， 这 些 X 检验 都 是 上 侧 检验 。 观 察 频数 
与 期 望 频 数 之 间 差 异 较 大 ， 将 导致 检验 统计 量 X 的 数 
值 较 大 ， 则 表明 原 假 设 应 该 被 拒绝 。 

三 个 或 多 个 总 体 比 率 相等 性 的 答 验 基 于 从 每 二 个 总 体 
独立 抽取 的 随机 样本 。 对 每 一 个 总 体 的 两 类 回答 ， 样 本 数 
据 提供 了 每 一 类 的 个 数 。 原 假设 是 所 有 总 体 比 率 相等 ， 原 
假设 的 拒绝 域 支 持 所 有 总 体 比率 不 全 相等 的 结论 。 





关键 术语 

Marascuilo procedure Marascuilo 方法 一 种 用 于 检 
验 成 对 总 体 比率 之 间 差 异 显著 性 的 多 重 比 较 方法 。 
当 所 有 总 体 比 率 相等 的 原 假设 被 拒绝 时 ， 这 个 检验 
有 助 于 确定 成 对 总 体 比率 之 间 的 差异 。 

test of independence 独立 性 检验 ”一 种 用 于 检验 两 


个 分 类 变量 独立 性 的 内 检验 。 如 果 独 立 性 假设 被 
拒绝 ， 则 可 以 得 出 两 个 分 类 变量 相关 或 信赖 的 
结论 。 






在 Ho 为 真 的 条 件 下 的 期 望 频数 


第 行 合计 数 x 第 j 列 合计 数 。 (121) 


VY 样本 容量 
检验 统计 量 
Marascuilo 成 对 比较 方法 的 临界 值 
补充 练习 马 






28. 菲尼克斯 国际 营销 组 织 认定 康涅狄格 州 的 布 里 奇 
波 特 、 新 墨西哥 州 的 洛斯 阿拉 莫 斯 、 佛 罗 里 达州 的 
那不勒斯 和 华盛顿 特区 为 美国 百 万 富翁 比率 最 高 
的 四 个 城市 ( 《今日 美国 》，2011 年 12 月 7 日 )。 
从 四 个 城市 中 的 每 一 个 分 别 抽取 个 人 样本 ， 与 研究 
相关 的 百 万 富翁 数量 如 下 : 


是 天 城市 
百 万 富 盆 布 里 奇 洛斯 阿拉 那 不 华盛顿 
波 特 莫 斯 勒 斯 特区 
是 44 35 36 34 
否 456 265 364 366 


a. 每 个 城市 的 百 万 富翁 比率 的 估计 值 分 别 是 多 少 ? 
b. 在 显著 性 水平 0.05 下 ， 对 四 个 城市 百 万 富 贫 总 





两 个 分 类 变量 的 独立 性 检验 利用 来 自 总 体 的 一 个 样 
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本 ， 数 据 显示 两 个 分 类 变量 的 每 一 个 组 合 的 个 数 。 原 假设 
是 两 个 变量 独立 ， 这 个 检验 被 称 为 独立 性 检验 。 如 果 原 很 
设 被 拒绝 ， 则 有 两 个 变量 之 间 相 关 或 依赖 的 统计 证 据 。 

利用 拟 合 优 度 检验 ， 来 检验 一 个 总 体 服从 某 个 特 
殊 的 历史 或 理论 概论 分 布 的 假设 。 我们 对 服从 多 项 概 
率 分 布 和 正 态 概率 分 布 阐述 了 应 用 。 直 于 正 态 概率 分 
布 适 用 于 连续 型 数据 ， 因 此 对 拟 合 优 度 检 验 需 要 的 分 
类 变量 ， 设 置 数 据 值 的 区 间 来 定义 类 别 。 





一 种 用 于 检验 一 
个 总 体 概 率 分 布 服 从 一 个 特殊 的 历史 或 理论 分 布 的 
X 检验 。 多 项 概率 分 布 和 正 态 概率 分 布 用 来 说 明 这 


goodness of fit test ” 拟 合 优 度 检验 


种 检验 8 
multinomial probability distribution ”多 项 概率 分 布 每 
一 个 结果 属于 三 个 或 多 个 类 别 中 的 一 个 且 侯 一 个 的 
一 种 概率 分 布 。 多 项 概率 分 布 将 二 项 概率 分 布 由 每 
次 试验 的 两 个 结果 推广 到 三 个 或 多 个 结果 。 






Pi 一 pi) p,( -一 p;) (12.3) 


拟 合 优 度 的 检验 统计 量 X 


也 下 > (f, 2 (12-6) 


体 比率 的 相等 性 进行 检验 。p- 值 是 多 少 ? 你 的 
结论 邵 何 ? 


30，Pew 研究 中 心 进行 的 一 项 调查 ， 询问 人 们 更 适合 于 


在 节奏 较 慢 还 是 较 快 的 地 区 生活 ( 《今日 美国 )， 
2009 年 2 月 13 日 )。 调 查 还 询问 了 回答 者 的 性 别 。 
考虑 如 下 样本 数据 。 


性 别 
喜欢 的 生 话 节 泰 更 性 女性 
较 慢 230 218 
无 偏好 20 24 
较 快 90 48 


a. 在 显著 性 水 平 0.05 下 ， 喜 欢 的 生活 节奏 与 性 别 
是 否 独立 ? P- 值 是 多 少 ? 你 的 结论 如 何 ? 
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b. 讨论 男性 与 女性 偏好 之 间 的 差异 。 在 显著 性 水 平 0.05 下 ， 检 验 县 的 类 型 与 星期 的 独 
32. 弗吉尼亚 州 两 个 县 紧急 救护 车 呼叫 次 数 的 数据 如 下 。 立 性 。P- 值 是 多 少 ? 你 的 结论 如 何 ? 

一 个 县 是 城市 型 县 ， 另 一 个 县 是 乡村 型 县 。 在 过 去 34. 一 门 大 学 课程 期 末 考 试 成 绩 的 随机 样本 如 下 。 
两 年 中 ,471 次 救护 车 呼叫 的 一 个 样本 给 出 了 每 次 55 85 72 9 48 71 88 70 59 

紧急 呼叫 的 县 的 类 型 和 星期 几 。 样 本 数据 如 下 ; gw A 本 :说 
ta 8 90 7 而 -6 站 7 M4 73 

县 的 类 型 eh 63 72 95 79 5 85 

i 16 0 Wd WR We Tl BD 


在 显著 性 水 平 0.05 下 ,检验 考试 成 绩 的 总 体 分布 
2 为 正 态 分 布 的 假设 是 否 应 该 被 拒绝 。 






a oe 
在 Zogby Intemational 为 Democrat and Chronicle 进行 的 一 次 研究 中 ， 对 700 多 位 纽约 人 进行 了 民意 测验 ， 以 判 
断 纽约 州 政府 是 否 正常 运作 。 受 访 者 被 问 及 的 问题 涉及 州 议 员 的 减 薪 、 对 说 客 的 限制 、 州 议员 和 任期 的 限制 、 以 及 
州 公 岳 是 否 能 够 将 事项 直接 交 给 州 议 员 进 行 投 票 表决 。 关 于 一 些 改革 建议 的 成 效 ;， 跨越 所 有 人 口 的 和 政治 的 界 
限 , 得 到 了 选民 的 广泛 支持 。 

假定 。 对 居住 在 纽约 州 西 部 地 区 的 100 名 个 人 进行 了 一 次 跟 进 调查 。 每 位 受 访 者 的 党 派 ( 民主党、 独立 党 、 
共和 党 ) ， 以 及 他 们 对 下 列 三 个 问题 的 回答 被 记录 下 来 。 


1. 因为 每 天 的 州 预算 都 澎 后 ， 州 议员 是 否 应 该 减 薪 ? 
和 

2. 是 否 应 该 对 说 客 加 以 更 多 的 限制 ? 
EL 

3. 是 否 应 该 对 州 议员 需要 服务 的 任期 有 一 个 固定 的 年 限 ? 
是 否 





回答 用 1 代表 “是 ”"， 用 了 2 代表“ 否 ”。 完 整 的 数据 集 可 以 提供 给 我 们 使 用 ， 存 在 光 冀 中 名 为 NYReform 的 文 
件 中 。 


管理 报告 

1. 利用 描述 统计 汇总 该 研究 中 的 数据 。 对 调查 涉及 的 三 个 问题 中 的 每 一 个 问题 ， 其 回答 (是 与 否 ) 与 党 派 
之 间 的 独立 性 ， 你 有 何 初 步 结 论 ? 

2. 对 于 问题 1， 在 显著 性 水 平 a=0.05 下 ,检验 受 访 者 的 回答 (是 与 否 ) 与 党 派 的 独立 性 。 

3. 对 于 问题 2， 在 显著 性 水 平 a=0.05 下 ,检验 受 访 者 的 回答 (是 与 否 ) 与 党 派 的 独立 性 。 

4. 对 于 问题 3， 在 显著 性 水 平 a=0.05 下 ,检验 受 访 者 的 回答 (是 与 否 ) 与 党 派 的 独立 性 。 

5. 跨越 所 有 的 政治 界限 ， 改 革 建 议 是 否 得 到 了 选民 的 广泛 支持 ? 请 解释 。 



























































































































































































wy 实践 中 的 统计 : Burke 市 场 销售 服务 公 局 
中 13.1 实验 设计 和 方差 分 析 简 介 Ty 人 
We 13.2 方差 分 析 和 完全 随机 化 实验 设计 ‘Wy ot 
13.3 ”多重 比较 方法 . | i . D 
, 13.4 随机 化 区 组 设计 W 
13.5” 析 因 实 验 1 mW 
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实践 中 的 统计 
Burke 市 场 营销 服务 公司 。 
俄 鹿 俄 州 ， 辛 辛 那 提 


Burke 市 场 营 销 服务 公司 是 工业 界 最 富有 经 验 的 市 
场 研 究 栅 构 之 一 。 与 世界 上 任何 其 他 市 场 研究 公司 相 
比 ，Burke 每 天 都 有 更 多 的 提议 、 更 多 的 项 目 出 答 。 由 
于 有 当前 美国 最 先进 的 科学 技术 的 文 撑 ，Burke 具备 非 
常 广 泛 的 研究 能 力 ， 可 以 对 几乎 所 有 市 场 营销 问题 提 
供 答 案 。 

在 一 项 研究 中 ，Burke 受聘 于 一 家 公司 来 为 儿童 干 
谷类 食品 的 潜在 新 品种 作出 评价 。 为 了 保守 商业 秘密 ， 
我 们 称 这 家 谷类 食品 制造 商 为 Anon 公司 。Anon 产品 
开发 者 认为 可 能 改善 谷类 食品 味道 的 四 个 关键 因素 为 ; 

1. 谷类 食品 中 小 麦 与 玉米 的 比例 ; 

2、 甜 味 剂 的 类 型 : 食糖 、 蜂 蜜 或 人 工 增 甜 剂 ; 

3. 有 无 果 味 香精 ; 

4. 加 工时 间 的 长 短 。 

Burke 设计 了 一 个 用 于 确定 这 四 个 因素 对 谷类 食品 
味道 将 会 产生 什么 影响 的 实验 。 例 如 ， 一 种 测试 的 谷 
类 食品 是 在 某 个 特定 的 小 麦 与 玉米 的 比例 、 甜 味 剂 为 


食糖 、 加 入 果 味 香精 和 短 加 工时 间 条 件 下 制 成 的 ; 另 
一 种 测试 的 谷类 食品 是 在 小 麦 与 玉米 的 不 同比 例 ， 但 
其 他 三 个 因素 相同 的 条 件 下 制 成 的 ， 等 等 。 由 参加 济 
试 的 几 组 儿童 品尝 这 些 谷类 食品 并 且 对 每 种 食品 的 味 
道 进行 评价 。 

方差 分 析 是 一 种 统计 方法 ， 我 们 使 用 这 种 方法 来 
研究 儿童 品尝 谷类 食品 的 味道 得 到 的 数据 。 下 面 显示 
的 是 分 析 结 果 : 

1. 谷类 食品 的 成 分 及 甜 味 剂 的 类 型 对 味道 评价 的 
影响 很 大 。 

2. 果 味 香精 事实 上 破坏 了 谷类 食品 的 味道 。 

3. 加 工时 间 对 泡 类 食品 的 味道 没有 影响 。 

这 些 信息 帮助 Anon 公司 识别 出 了 可 能 生产 出 最 储 
款 道 谷 类 食品 的 因素 。 

Burke 进行 的 实验 设计 及 随后 的 方差 分 析 对 生产 谷 
类 食品 的 设计 方案 很 有 神 益 。 在 本 章 里 ， 我 们 将 看 到 
这 些 方法 是 如 何 实现 的 。 


在 第 1 章 我 们 提 到 ， 统 计 研究 可 以 分 为 实验 性 研究 与 观测 性 研究 两 类 。 在 实验 性 统计 研究 中 ， 数 据 是 通过 
实验 产生 的 。 一 项 实验 首先 要 从 确定 一 个 我 们 感 兴趣 的 变量 开始 。 然 后 确定 并 控制 一 个 或 多 个 其 他 变量 ， 这 
些 其 他 变量 与 我 们 感 兴趣 的 变量 是 相关 的 ; 与 此 同时 ， 收 集 这 些 变量 如 何 影响 我 们 感 兴趣 的 那 一 个 变量 的 
数据 。 

在 观测 性 研究 中 ， 我 们 经 常 是 通过 抽样 调查 ， 而 不 是 通过 控制 一 项 实验 来 获取 数据 。 一 些 好 的 设计 原则 仍然 
会 得 到 使 用 ,但 严格 控制 一 项 实验 性 统计 研究 往往 是 不 可 能 的 。 例 如 ， 在 一 项 有 关 吸 烟 与 肺癌 之 间 关 系 的 研究 
中 ,研究 人 员 不 可 能 为 实验 性 研究 的 对 象 指定 其 是 否 有 吸烟 嗜好 。 研 究 人 员 仅 限于 简单 地 观察 吸烟 对 那些 曾经 吸 
烟 的 人 的 影响 ， 以 及 不 吸烟 对 那些 已 经 不 吸烟 的 人 的 影响 。 

在 本 章 中 ,我 们 介绍 三 种 类 型 的 实验 设计 : 完全 随机 化 设计 、 随 机 化 区 组 设计 以 及 析 因 实验 。 对 于 每 
一 种 实验 设计 ， 我们 将 要 说 明 ， 方 差分 析 (ANOVA) 的 统计 方法 如 何 能 用 于 现 有 数据 的 分 析 。 我 们 也 可 使 
用 ANOVA 来 分 析 通 过 观测 性 研究 得 到 的 数据 。 例 如 ， 我们 将 会 看 到 ， 当 数据 是 通过 一 项 观测 性 研究 得 到 
时 ， 用 于 完全 随机 化 的 实验 设计 的 ANOVA 方法 也 适用 检验 三 个 或 三 个 以 上 总 体 均 值 的 相等 问题 。 在 第 14 
章 我 们 将 会 看 到 ， 在 分 析 涉 及 实验 性 研究 与 观测 性 研究 两 种 类 型 数据 的 回归 研究 结果 时 ，ANOVA 方法 起 到 
了 关键 的 作用 。” 


日” 作者 感谢 Burke 市 场 营 销 服 务 公司 的 罗 纳 德 ， 塔 特 姆 博士 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
巴 罗 纳 德 A. 费 雪 (Ronald Alymer Fisher，1890 ~ 1962) 创立 了 被 称 为 实验 设计 的 统计 学 分 支 。 他 不 仅 在 统计 学 领域 证 有 成 就 ， 而 且 
还 是 遗传 学 领域 的 著名 科学 家 。 
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在 13.1 节 ， 我 们 将 介绍 实验 性 研究 的 基本 原理 ， 并 且 将 说 明 ， 如 何 将 这 些 基 本 原理 应 用 到 完全 随机 化 的 设计 
中 。 然 后 ， 在 ,13. 2 节 我 们 将 要 说 明 , 如何 应 用 ANOVA 来 分 析 完 全 随机 化 实验 设计 的 数据 。 在 后 面 的 几 节 中 ， 我 
们 将 讨论 多 重 比较 方法 和 另外 两 个 有 广泛 应 用 的 实验 设计 : 随机 化 区 组 设计 和 析 因 实验 。 


13. 1 实验 设计 和 方差 分 析 简 介 


作为 实验 性 统计 研究 的 例子 ， 我们 考虑 Chemitech 公司 遇 到 的 问题 。Chemitech 公司 开发 了 一 种 新 的 城市 供水 
过 滤 系 统 。 新 过 滤 系 统 的 部 件 需 要 从 几 家 供应 商 处 购买 ， 然 后 由 Chemitech 公司 设 在 南 吉州 哥伦比亚 市 的 工厂 装 
配 这 些 部 件 。 公 司 的 工程 部 负责 确定 新 过 滤 系统 的 最 佳 装配 方法 。 考 虑 了 各 种 可 能 的 装配 方法 后 ,工程 部 将 范围 
缩小 至 三 种 方法 : 方法 A、 方 法 B 及 方法 C。 这 些 方法 在 新 过 滤 系 统 装配 步骤 的 顺序 上 有 所 不 同 。 Chemitech 公司 
的 管理 人 员 希 望 确定 : 哪 种 装配 方法 能 使 每 周 生 产 的 过 滤 系统 的 数量 最 多 。” 

在 Chemitech 公司 的 实验 中 ， 装 配方 法 是 独立 变量 或 因子 〈factor)。 因 为 对 应 于 这 个 因子 有 三 种 装配 方法 ， 
所 以 我 们 说 这 一 实验 有 三 个 处 理 ; 每 个 处 理 (treatment) 对 应 于 三 种 装配 方法 中 的 一 种 。Chemitech 公司 的 问题 是 
一 个 单 因子 实验 (single-factor experiment) 的 实例 ; 该 问题 只 涉及 一 个 定性 因子 (装配 方法 ) 。 更 为 复杂 的 实验 可 
能 由 多 个 因子 组 成 ; 其 中 有 些 因 子 可 能 是 定性 的 ， 有 些 因 子 可 能 是 定量 的 。 

三 种 装配 方法 或 处 理 确定 了 Chemitech 公司 实验 的 三 个 总 体 。 一 个 总 体 是 使 用 装配 方法 A 的 全 体 工人 ， 第 二 
个 总 体 是 使 用 装配 方法 B 的 全 体 工 人 ， 第 三 个 总 体 是 使 用 装配 方法 C 的 全 体 工人 人。 注意: 对 每 个 总 体 ， 因 变量 或 
响应 变量 (response variable) 是 每 周 装配 的 过 滤 系统 的 数量 ， 并 且 该 实验 的 主要 统计 目的 是 确定 : 三 个 总 体 (三 
种 方法 ) 每 周 所 生产 的 过 滤 系 统 的 平均 数量 是 否 相 同 。 

假设 从 Chemitech 公司 的 生产 车 间 的 全 体 装配 工人 中 抽取 了 三 名 工人 组 成 一 个 随机 样本 。 用 实验 设计 的 术 
语 ， 三 名 随机 抽取 的 工人 是 实验 单元 (experiment units) 。 我 们 将 在 Chemitech 公司 的 问题 中 使 用 的 实验 设计 称 
为 完全 随机 化 设计 (completely randomized design)。 这 种 类 型 的 设计 要 求 将 每 一 种 装配 方法 或 处 理 随机 地 指派 
给 一 个 实验 单元 或 一 名 工人 。 例 如 ,方法 A 可 能 被 随机 地 指派 给 第 二 名 工人 ， 方法 B 指 派 给 第 一 名 工人 , 方 
ee ni 随机 化 的 概 
念 是 所 有 实验 设计 的 一 个 重要 原则 。 

注意 : 这 个 实验 对 每 个 处 理 只 会 得 到 一 个 装配 好 的 过 滤 
系统 的 测度 或 数量 。 对 于 每 种 装配 方法 ， 为 了 得 到 更 多 的 数 
据 ， 我 们 必须 重复 或 复制 基本 的 实验 过 程 。 例 如 ， 假 设 我 们 
是 只 随机 抽取 3 名 工人 ， 而 是 15 名 工人 ， 然 后 对 每 一 
理 随 机 地 指派 5 名 工人 。 因 为 每 种 装配 方法 都 指派 给 5 名 工 
人 ， 因 此 我 们 说 得 到 了 5 个 复制 。 复 制 的 过 程 是 实验 设计 的 
另 一 个 重要 原则 。 图 13-1 显示 了 Chemitech 公司 实验 的 完全 
随机 化 设计 。 


13.1.1 数据 收集 





13-1 评价 Chemitech 公司 装配 方 

一 旦 我 们 对 实验 设计 感到 满意 ， 我 们 将 进行 收集 和 分 析 数 据 法 实验 的 完全 随机 化 设计 
的 工作 。 在 Chemitech 公司 的 例子 中 ， 工 人 们 将 得 到 如 何 按照 指派 给 他 们 的 装配 方法 工作 的 培训 ， 然 后 使 用 这 种 
方法 开始 装配 新 的 过 滤 系 统 。 在 指派 装配 方法 及 培训 工作 都 已 经 完成 后 ， 一 周 内 每 名 工人 装配 的 过 滤 系 统 的 数量 


日 ”因果 关系 在 观测 性 研究 中 是 很 难 证 实 的， 但 是 在 实验 性 研究 中 很 容易 证 实 因 果 关 系 。 
名 ”随机 化 是 将 处 理 随 机 地 指派 给 实验 单元 的 过 程 。 在 罗 纳 德 A 费 雪 以 前 ， 处 理 蚌 以 系统 的 方式 或 主观 的 方式 被 指派 的 。 
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如 表 13-1 所 示 。 每 一 种 装配 方法 所 生产 的 过 滤 系 统 的 样本 均值 .样本 方差 和 样本 标准 差 也 在 表 中 给 出 。 于 是 ， 使 


用 交配 方法 和 生产 的 过 滤 系 统 的 样本 均值 是 62; 表 13-1 15 名 工人 生产 的 过 滤 系 统 的 数量 
使 用 装配 方法 B 生产 的 过 滤 系 统 的 样本 均值 是 方法 
66; 使 用 装配 方法 C 生产 的 过 滤 系 统 的 样本 均值 A B C 
是 52。 从 这 些 数据 可 以 看 出 ， 装 配方 法 B 似乎 比 站 人 
其 他 装配 方法 有 更 高 的 劳动 生产 率 。 = 
真正 的 问题 是 ， 观 察 到 的 三 个 样本 均值 之 间 9 
的 差异 是 否 是 够 大 ， 以 致使 我 们 能 够 得 出 结论 : 67 68 49 
对 应 于 三 种 装配 方法 的 总 体 均值 是 不 同 的 。 为 了 Se 六 
x : ; ， 克己 i 1.0 
SEA aefyss bh 和 汪汪 


几 一 一 使 用 装配 方法 A 每 周 生 产 的 过 滤 系 统 的 数量 
屿 一 一 使 用 装配 方法 B 每 周 生 产 的 过 滤 系 统 的 数量 
心 一 一 使 用 装配 方法 C 每 周 生 产 的 过 滤 系 统 的 数量 
尽管 我 们 根本 不 可 能 知道 上 ，k, 和 jp 的 实际 数值 ， 但 我 们 还 是 试图 用 样本 均值 来 检验 下 面 的 假设 。 
Ho: mm 三 用 =p 
H. :总体 均值 不 全 相等 
正如 我 们 很 快 将 要 证 明 的 那样 ， 利 用 方差 分 析 (ANOVA) 这 一 统计 方法 可 以 确定 ， 在 三 个 样本 均值 之 间 观 
察 到 的 差异 是 否 足 够 大 到 可 以 拒绝 Hu。” 


13. 1.2 方差 分 析 的 假定 
应 用 方差 分 析 需 要 三 个 假定 。 

1. 对 每 个 总 体 ， 响 应 变量 服从 正 态 分 布 “。 这 就 意味 着 : 在 Chemitech 公司 的 实验 中 ， 对 于 每 一 种 装配 方法 ， 
每 周 生 产 的 过 滤 系 统 的 数量 (响应 变量 ) 必须 服从 正 态 分 布 。 

2. 响应 变量 的 方差 ， 记 为 o*， 对 所 有 总 体 都 是 相同 的 。 这 就 意味 着 : 在 Chemitech 公司 的 实验 中 ， 对 于 每 一 
种 装配 方法 ， 每 周 生 产 的 过 滤 系 统 数 量 的 方差 必须 是 相同 的 。 

3. 观测 值 必须 是 独立 的 。 这 就 意味 着 : 在 Chemitech 公司 的 实验 中 ,对 于 每 名 工人 ,每 周 生 产 的 过 滤 系 统 的 
数量 必须 与 任何 其 他 工人 每 周 生 产 的 过 滤 系 统 的 数量 独立 。 


13. 1. 3 方差 分 析 : 概念 性 综述 

如 果 三 个 总 体 均值 相等 ”我们 可 以 期 望 三 个 样本 均值 彼此 之 间 很 接近 。 事 实 上 ， 三 个 样本 均值 相互 越 接近 ， 我 们 推 
断 总 体 均值 不 等 的 证 据 就 越 缺 乏 说 服 力 。 或 者 说 ， 样 本 均值 差异 越 大 ， 我 
们 推断 总 体 均值 不 等 的 证 据 就 越 有 说 服 力 。 换 句 话说 ， 如 果 样 本 均值 的 变 
异性 “小 ”， 则 支持 了,; 如 果 样 本 均值 的 变异 性 “大 " ， 则 支持 H,。 

如 果 原 假设 HH, :py, =j =jpos 为 真 ， 则 我 们 可 以 利用 样本 均值 之 间 的 
变异 性 建立 o* 的 一 个 估计 。 首 先 ， 我 们 注意 到 : 如 果 方差 分 析 的 假设 
成 立 并 且 原 假设 为 真 ， 则 每 一 个 样本 都 是 来 自 均值 为 ,方差 为 的 同 
一 正 态 分 布 。 在 第 7 章 我 们 曾 讲 过 ,来自 正 态 总 体 的 容量 为 地 的 一 个 简 当 H, 为 真 时 ， 因 为 只 有 一 个 抽样 妇 布 ， 所 以 
单 随机 样本 的 样本 均值 的 抽样 分 布 仍然 服从 正 态 分 布 ， 其 均值 为 .， 由 个 样本 均值 彼此 之 问 是 “相互 接近 的 " 
方差 为 o2/n。 图 13-2 用 图 示 说 明了 这 一 抽样 分 布 。 图 13-2 为 真 时 的 抽样 分 布 








日 若 Bo 被 拒绝 ,我 们 不 能 得 出 总 体 均值 金 不 相等 的 结论 。 拒 绝 Bo 意味 着 至 少 两 个 总 体 的 均值 有 不 同 的 数值 。 
加” 如 果 样 本 容量 相等 ， 方 差分 析 对 于 违背 总 体 服 从 正 态 分 布 的 假定 不 敏感 。 
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于 是 ,如 果 原 假设 为 真 ， 我们 可 以 把 由 表 13-1 得 到 的 三 个 样本 均值 x, =62，x; =66，x* =52 中 的 每 一 个 ， 都 
认为 是 从 图 13-2 所 示 的 抽样 分 布 中 随机 抽取 的 数值 。 在 这 种 情况 下 ， 三 个 样本 均值 x*,、x, 和 % 的 均值 与 方差 可 以 
用 来 估计 该 抽样 分 布 的 均值 与 方差 。 例如， 在 Chemitech 公司 实验 的 例子 中 ， 当 样本 容量 相等 时 ,x 的 抽样 分 布 的 
均值 的 最 佳 估计 是 三 个 样本 均值 的 均值 或 算术 平均 数 。 在 Chemitech 公司 实验 的 例子 中 ，x 抽样 分 布 的 均值 的 一 个 
估计 值 是 (62 +66 +52)/3 =60。 我 们 称 该 估计 值 为 总 样本 均值 。x 抽样 分 布 的 方差 o; 的 估计 可 以 由 三 个 样本 均 
值 的 方差 给 出 。 


由 oo:=o /n， 解 得 


琅 是 
0o 的 估计 值 = nx (og: 的 估计 量 ) = ns: = 5 x52 = 260 
所 得 结果 ns =260 称 为 o 的 处 理 间 估 计 。 

o 的 处 理 间 估 计 的 根据 是 : 原 假 设 为 真 。 在 这 种 情 
形 下 ， 每 个 样本 都 来 自 同一 个 总 体 ， 并且 x 只 有 一 个 抽 
样 分 布 。 为 了 说 明 H 为 假 时 发 生 了 什么 情况 ， 假 定 总 体 
均值 全 不 相同 。 注 意 ， 由 于 三 个 样本 分 别 来 自 均值 不 同 
的 三 个 正 态 分 布 ， 因 此 将 导致 有 三 个 不 同 的 抽样 分 布 。 
13-3 表明 在 这 种 情形 下 ， 样 本 均值 彼此 之 间 不 再 像 Hi 当 H, 为 假 时 ， 因 为 几 个 样本 均值 来 自 不 同 的 抽样 分 布 ， 

为 真 时 那样 接近 了 。 于 是 ,总 将 会 变 得 比较 大 ， 从 而 使 所 以 它们 彼此 之 间 不 再 是 相互 接近 的 。 
得 oo 的 处 理 间 估计 也 变 得 比较 大 。 一 般 地 ， 当 总 体 均 值 13-3 Hu 为 假 时 x 的 抽样 分 布 
不 相等 时 ， 处 理 间 估计 将 会 高 估 总 体 方差 o 。 

每 个 样本 内 部 的 变异 也 会 对 我 们 得 到 的 方差 分 析 的 结论 产生 影响 。 当 我 们 从 每 一 个 总 体 中 抽取 一 个 随机 样本 
时 ， 每 个 样本 方差 都 给 出 了 c- 的 一 个 无 偏 估 计 。 因 此 ， 我们 可 以 将 o7 的 个 别 估计 组 合 或 合并 成 一 个 总 的 估计 。 
用 这 种 方法 得 到 的 of 的 估计 称 为 o 的 合并 估计 或 处 理 内 咎 计 。 因 为 每 个 样本 方差 给 出 的 e 的 估计 仅 以 每 个 样 
本 内 部 的 变异 为 依据 ， 因 此 ，e 的 处 理 内 估计 不 受 总 体 均值 是 否 相等 的 影响 。 当 样本 容量 相等 时 ，o” 的 处 理 内 
估计 可 以 通过 计算 个 别 样本 方差 的 算术 平均 值得 到 。 对 于 Chemitech 公司 实验 的 例子 ， 我们 有 


的 处 理 内 估计 一 203+26:5+31. gs 


在 Chemitech 公司 实验 的 例子 中 ，o” 的 处 理 间 估 计 (260) 远大 于 of 的 处 理 内 估计 (28. 33)。 事 实 上 ， 这 两 
个 估计 量 的 比值 为 260/28. 33 =9. 18。 但 是 ,我 们 回想 起 ; 只 有 当 原 假设 为 真 时 ， 处 理 间 估计 方法 才 是 总 体 方差 
x 的 一 个 好 的 估计 量 ; 如 果 原 假设 为 假 ， 处 理 间 知 计 方 法 将 高 估 总 体 方差 o*。 不 过 在 这 两 种 情形 下 ， 处 理 内 信 
计 都 是 总 体 方差 o 的 一 个 好 的 佑 计量 。 因 此 , 如 果 原 假设 为 真 ， 则 两 个 佑 计量 应 该 很 接近 ， 并 且 它 们 的 比值 接 
近 于 1。 如 果 原 假设 为 假 ， 则 处 理 间 估计 将 大 于 处 理 内 估计 ， 并 且 它 们 的 比值 也 将 是 大 的 。 在 下 一 节 我 们 将 说 明 ， 
为 了 拒绝 Hu， 这 个 比值 必须 达到 多 大 。 

总 的 说 来 ，ANOVA 背后 的 逻辑 是 以 共同 总 体 方差 o 的 两 个 独立 的 估计 量 为 基础 。o 的 一 个 估计 量 是 以 样本 
均值 它们 自己 之 间 的 变异 性 为 依据 ，o” 的 另 一 个 估计 量 是 以 每 个 样本 内 部 数据 的 变异 性 为 依据 。 通 过 比较 e 的 
这 两 个 佑 计量 ,我 们 就 能 够 确定 总 体 均值 是 否 相 等 。 


注释 和 评论 


1. 实验 设计 中 的 随机 化 与 观测 性 研究 中 的 概率 抽样 相 类 似 。 
2. 在 许多 医学 实验 中 ,潜在 的 偏差 通过 使 用 双 盲 (double-blind) 的 实验 设计 被 排除 。 在 这 样 的 设计 中 ， 无 
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论 是 应 用 处 理 的 医生 还 是 受 斌 对 人 象 ， 都 不 知道 应 用 的 是 哪 一 种 处 理 。 许 多 其 他 类 型 的 实验 也 可 以 从 这 种 类 
型 的 设计 中 受益 。 

3. 对 于 一 个 完全 随机 化 实验 设计 ， 我 们 在 本 节 中 给 出 了 如 何 应 用 方差 分 析 来 检验 上 个 总 体 均 值 相等 的 一 个 概 
念 性 的 氢 述 。 我 们 将 看 到 ， 对 于 观测 性 或 非 实 验 性 研究 ， 也 可 以 用 同样 的 程序 来 检验 上 个 总 体 均 值 相 等 的 
问题 。 

4. 在 10.1 节 和 10.2 节 中 我 们 已 经 介绍 了 检验 两 个 总 体 均值 相等 的 假设 的 统计 方法 。ANOVA 也 可 应用 来 检 
验 两 个 总 体 均 值 相 等 的 假设 5 但 在 实践 中 ,除非 在 处 理 三 个 或 三 个 以 土 总 体 的 均值 问题 时 ， 通 常 不 使 用 方 
差分 析 方 法 。 


13. 2 方差 分 析 和 完全 随机 化 实验 设计 


在 本 节 中 ， 我 们 将 说 明 ， 对 于 一 个 完全 随机 化 实验 设计 ， 如 何 应 用 方差 分 析 来 检验 个 总 体 均值 是 否 相 等 的 
问题 。 被 检验 的 假设 的 一 般 形式 为 z 
Hi:p = p=" = 
He。: 下 个 总 体 的 均值 不 全 相等 
式 中 , 以 代表 第 7 个 总 体 的 均值 。 
我 们 假定 从 天 个 总 体 或 处 理 中 的 每 一 个 抽取 一 个 容量 为 方 的 简单 随机 样本 。 对 于 得 到 的 样本 数据 ， 令 凡人 代表 
第 7 个 处 理 的 第 ;个 观测 值 ; 代表 第 j 个 处 理 的 观测 值 个 数 ; x 代表 第 j 个 处 理 的 样本 均值 ，s; 代表 第 /7 个 处 理 的 
样本 方差 ; s; 代表 第 j 个 处 理 的 样本 标准 差 。 
第 六 个 处 理 的 样本 均值 与 样本 方差 的 计算 公式 如 下 所 示 。 








) 三 mn (13-1) 
> (x - 区 
5 = 三 -一 一 一 一 (13-=2) 
n,—1 
总 样本 均值 ， 记 为 <， 等 于 所 有 观测 值 之 和 除 以 观测 值 的 总 个 数 。 即 
> 
x = (13-3) 
ny 
式 中 
nz 三 TW 本 -PR2 二 人 7 二 7 (13-4) 





A ; ; I : x 
A 
kn k 
换 句 话说 ， 只 要 样本 容量 全 相等 ， 总 样本 均值 恰好 是 上 个 样本 均值 的 算术 平均 数 。 
在 Chemitech 公司 实验 的 例子 中 ， 因 为 每 个 样本 都 是 由 n =5 个 观测 值 组 成 ， 所 以 总 样本 均值 可 利用 式 (13-5) 求 

得 。 对 于 表 13-1 中 的 数据 ， 我 们 得 到 下 面 的 结果 。 

= 62+66+52 

多 三 a = 人) 
因此 ， 若 原 假设 为 真 (js =p = = 由 ) ， 则 总 样本 均值 60 为 总 体 均 值 凡 的 最 优 估计 值 。 


13. 2.1 总 体 方差 的 处 理 间 估计 
在 上 一 节 , 我 们 介绍 了 o? 的 一 个 处 理 间 估计 的 概念 ， 并 且说 明了 当 样 本 容量 相等 时 如 条 计算 处 理 间 估 计 。 


(13-5) 
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我 们 称 o 的 这 个 估计 量 为 均 方 处 理 ( mean square due to treatments，MSTR) 。 计 算 MSTR 的 一 般 公式 为 





(13-6) 


式 (13-6) 中 的 分 子 称 为 处 理 平方 和 (sum of squares due to treatments，SSTR) 。 分 母 上 -1 表示 与 SSTR 相 联系 的 
自由 度 。 因 此 ， 均 方 处 理 也 可 以 按 以 下 公式 计算 。 








着 为 真 ， 则 MSTR 给 出 了 oo 的 一 个 无 入 信 计 。 但是， 如 果 上 个 总 体 艾 信 不 相等 ， 则 MSTR 就 不 是 的 无 
偏 估计 事实 上 ， 在 这 种 情形 下 ，MSTR 将 会 高 估 总 体 方 
对 于 表 13-1 中 的 Chemitech 公司 实验 的 数据 ， 我 们 得 到 下 面 的 结果 。 


SSTR = Dn(% -x) =5x(62-60) "+5x(66-60)+5 x (52 -60) = 520 
了 三 | 









在 EE 和 我 们 介绍 了 of 的 处 理 内 估计 的 概念 ， 并 且说 明了 当 样本 容量 相等 时 如 何 计算 处 理 内 估计 。 我 们 
称 o” 的 这 个 估计 量 为 均 方 误差 ( mean square due to -a MSE)。 计 算 MSE 的 一 般 公式 为 





式 (13-9) 中 的 分 子 称 为 误差 平方 和 (sum of squares 有 to error，SSE) MSE 的 -全 上 
度 。 因 此 ，MSE 的 计算 公式 也 可 以 表示 成 下 面 的 形式 。 





我 们 注意 到 ; MSE ;是 以 锋 仙 直 理 内 者 的 变异 性 海信 它 不 受 原 假设 是 千 为 真 的 影响 ; 因此 MSE 水 给 
EC “的 一 个 无 偏 估 计 。 
对 于 表 13-1 中 Chemitech 公司 实验 的 数据 ， 我 们 得 到 下 面 的 结果 。 
SSE = EDs = (5 = 1) x X05 {5 1) x31 = 340 
SSE _ 340 


MSE = 





由 二 = 二 33 
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13. 2. 3 方差 估计 量 的 比较 : 三 检验 

如 果 原 假设 为 真 ， 则 MSTR 与 MSE 给 出 a: 的 两 个 独立 的 无 偏 估计 量 。 根 据 在 第 11 章 中 曾 介绍 过 的 内 容 ， 我 
们 知道 对 于 正 态 总 体 ，o? 的 两 个 独立 的 估计 量 之 比 的 抽样 分 布 服从 分布 。 因 此 ， 如 果 原 假设 为 真 ， 并 且 
ANOVA 的 假定 得 到 满足 ， 则 MSTR/MSE 的 抽样 分 布 服 从 一 个 分 子 自由 度 为 -1， 分 母 自由 度 为 n, -上 的 下 分 布 。 
换 句 话说 ， 如 果 原 假设 为 真 ， 则 MSTR/MSE 的 值 似乎 应 该 从 这 个 下 分 布 中 抽取 。8 

但 是 ， 如 果 原 假设 不 成 立 ， 由 于 MSTR 高 估 了 总 体 方差 o*， 从 而 使 得 MSTR/MSE 的 值 被 对 大 。 因 此 ， 如 果 得 
到 的 MSTR/MSE 的 值 太 大 ， 以 至 于 不 像 是 随机 抽取 自分 子 自 由 度 为 -1， 分 母 自 由 度 为 n; -上 的 下 分 布 的 话 ， 则 
我 们 将 拒绝 Hu。 因 为 ， 拒 绝 H, 的 决定 是 基于 MSTR/MSE 的 值 ， 于 是 用 来 检验 个 总 体 均 值 是 否 相 等 的 检验 统计 
量 如 下 所 示 。 





LA oA 区 NT 
1 re ] > 
， 投 内 9 Wy, RANE 日 
1 P= - 二 WTA a Ei | py” 
ls Escf > E i i ER Ti 


现在 让 我 们 回 到 Chemitech 公司 实验 的 例子 , 在 w = 
0. 05 的 显著 性 水 平 下 进行 假设 检验 。 检 验 统计 量 的 值 为 
MSTR 260 


分 子 自由 度 为 k-1=3 一 1 =2,， 分 母 自 由 度 为 mr - 
k=15 -3 =12。 因 为 对 于 大 的 检验 统计 量 的 值 ， 我 们 将 
拒绝 原 假设 ， 所 以 p- 值 是 检验 统计 量 的 值 =9.18 上 例 : | ci 
的 分 布 曲线 下 方 的 面积 。 图 13-4 用 图 示 说 明了 下 = 图 了 -4 利用 MSTR/MSE 的 抽样 分 布 计算 的 p- 值 
MSTR/MSE 的 抽样 分 布 ， 检 验 统计 量 的 值 ， 以 及 假设 检验 的 p- 值 ， 它 是 下 分 布 上 侧 曲 线 下 方 的 面积 。“ 

从 附录 B 的 表 A-4 中 ， 我 们 可 以 找到 如 下 表 所 示 的 分 子 目 由 度 为 2， 分母 自 由 度 为 12 的 下 分 布 上 侧 曲线 下 方 
面积 所 对 应 的 了 值 。 





DR MSTRJMSE 





上 侧 曲 线 下 方 的 面积 0. 10 0. 05 0, 025 0. 01 
F 值 (df =2, df, =12) 2. 8] 3. 89 5. 10 6. 93 
F=9.18 


因为 =9. 18 大 于 6.93， 所 以 在 =9.18 处 上 重 旱 线 下 方 的 面积 小 于 0.01。 寺 是 ，p- 什 小 于 0.01。Minitab 
或 Exeel 可 以 精确 地 计算 出 p- 值 =0.004。 当 p- 值 <a =0.05 时 ， 则 指 绝 Hb 。 检 验 提供 了 充分 的 证 据 使 我 们 能 够 世 
定 : 三 个 总 体 均 值 是 不 相等 的 。 换 句 话说， 方差 分 析 支持 结论 : = 法 每 周 生 产 的 过 滤 系 统 总 体 的 平均 数 
量 是 不 同 的 。 

如 同 其 他 的 检验 假设 方法 一 样 ， 我 们 也 可 以 利用 临界 值 法 。 当 w=0.05 时 , 的 临界 值 是 分 子 自由 度 为 2， 
分 母 自 由 度 为 12 的 分 布 上 侧面 积 为 0.05 所 对 应 的 下 值 。 从 下 分 布 表 中 , 我 们 查 出 的 mw =3.89。 于 是 ,对 Che- 
mitech 公司 实验 的 例子 ， 适用 于 上 侧 的 拒绝 法 则 是 

如 果 .<3.89， 出 拒绝 HH 
因为 =9. 18， 所 以 我 们 拒绝 Ho， 并 且 得 出 结论 : 三 个 总 体 的 均值 是 不 相等 的 。 检验 下 个 总 体 均值 相等 的 完 





日 我 们 已 经 在 第 11.2 节 中 对 分 布 和 F 分 布 表 的 使 用 进行 了 介绍 。 
加 附录 了 说 明了 如 何 使 用 Minitab 或 Excel 计算 p- 值 。 
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整 过 程 概括 如 下 。 





13. 2. 4 ” ANOVA 表 
前 面 的 计算 结果 可 以 很 方便 地 用 方差 分 析 表 或 ANOVA 表 (ANOVA table) 表示 出 来 。 一 个 完全 随机 化 实验 
设计 的 ANOVA 表 的 一 般 形式 如 表 13-2 所 示 。 表 13-3 是 Chemitech 公司 实验 的 ANOVA 表 。 在 列 标题 “方差 来 源 ” 
中 ， 与 “总 计 ” 相 联系 的 平方 和 被 称 为 总 平方 和 (SST) 。 我 们 注意 到 ，Chemitech 公司 实验 的 结果 意味 着 : SST = 
SSTR + SSE， 并 且 总 平方 和 的 自由 度 是 处 理 平方 和 的 自由 度 与 误差 平方 和 的 自由 度 之 和 。 
表 13-2 完全 随机 化 设计 的 ANOVA 表 





处 理 SSTR | , MSTR = 3 站 MSTR 
误差 人 nr—k MSE = et 
总 计 SST nr -1 


表 13-3 CHEMITECH 公司 实验 的 方差 分 析 表 \ 





处 理 520 2 260. 00 9. 18 0. 004 
误差 1340 12 28; 33 
总 计 | | f % 860 二 14 | 


我 们 应 该 指出 的 是 ， 如 果 我 们 将 全 部 15 个 观测 值 看 成 是 一 个 数据 集 ， 那 么 SST 除 以 它 的 自由 度 nr - 1， 恰好 
是 该 数据 集 的 由 作 宁 六 区 如 果 我 们 把 整个 数据 集 作 为 一 个 样本 ， 总 平方 和 SST 的 计算 公 Se 


SST = > ? pA | (13-13) 
可 以 证 明 ， 我 们 从 C Chemitech 公司 实验 的 方差 分 析 表 上 看 到 的 结果 也 可 用 于 其 他 问题 ， 即 “ 
SST = SSTR + SSE (13-14) 


换 句 话说 ，SST 可 以 被 分 解 为 两 个 平方 和 : 处 理 平方 和 与 误差 平方 和 。 我 们 还 注意 到 ，SST 对 应 的 自由 度 
n; -1 也 可 以 被 分 解 为 对 应 于 SSTR 的 自由 度 -1 与 对 应 于 SSE 的 自由 度 w -k。 方 差分 析 可 以 被 看 作 将 总 平方 和 
及 其 自由 度 分 解 (partitioning) 成 它们 对 应 的 来 源 (处 理 与 误差 ) 的 一 个 过 程 。 这 些 平方 和 除 以 适当 的 自由 度 ， 
出 全 三 守 全 从 琶 。 I TO 


[一 一 


pe 





ef 平方 和 分 解 为 不 同 成 分 的 一 种 统计 方法 。 
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13.2.5 方差 分 析 的 计算 机 输出 结果 


利用 计算 机 统计 软件 包 ， 可 以 很 容易 地 完成 大 样本 容量 或 多 个 总 体 方差 分 析 的 计算 。 附 录 13A、 附 录 13B 和 
附录 13C 分 别 给 出 了 利用 Minitab 、Excel 和 StatTools 实现 方差 分 析 计 算 的 必要 步骤 。 在 图 13-5 中 ， 我 们 给 出 了 利 
用 Minitab 得 到 的 Chemitech 公司 实验 的 输出 结果 。 计 算 机 输出 的 第 一 部 分 包含 了 我 们 熟悉 的 ANOVA 表 形 式 。 比 
较 一 下 图 13-5 与 表 13-3 ， 我 们 看 到 : 尽管 它们 的 标题 略微 有 些 不 同 ,但 可 利用 的 信息 却 是 相同 的 。 图 13-5 的 列 
标题 “Source” 对 应 于 表 13-3 的 “方差 来 源 ” 的 那 一 列 ， 图 13-5 的 行 标 题 “Factor” 则 对 应 于 表 13-3 的 “处 理 ” 
的 那 一 行 ， 并 且 将 表 13-3 的 “平方 和 ”与 “自由 度 ” 两 列 在 图 13-5 中 互 换 了 位 置 。 


Source SS MS 
Factor S20%0 260.0 
ErTOr 3#40 .0 28.8 
Total 860 .0 


S 三 5.323 R-SG = 60.47% R-Sgq(adj) = 53.88% 


Individual 95% CIs For Mean Based on 
Pooled StDev 
N Mean 
5 62 .000 
5 66 .000 
5 52 .000 


Pooled StDev 三 5.323 





13-5 ”CHEMITECH 公司 实验 的 方差 分 析 的 MINITAB 输出 


注意 ; 在 图 13-5 中 ANOVA 表 的 下 方 ， 计 算 机 的 输出 结果 包含 了 各 种 装配 方法 的 样本 容量 、 样 本 均值 和 样本 
标准 差 。 另 外 ，Minitab 还 给 出 了 每 个 总 体 均 值 的 95% 的 置信 区 间 估 计 的 图 示 。 在 建立 这 些 置 信 区 间 估 计时 ， 
Minitab 用 MSE 作为 o 的 估计 。 于 是 ，MSE 的 平方 根 给 出 了 总 体 标准 差 o 的 最 佳 估计 。 在 计算 机 的 输出 中 ，o 的 
这 个 估计 量 用 “Pooled StDev” 表 示 ， 它 等 于 5.323。 为 了 详细 解释 这 些 区 间 估 计 是 如 何 得 来 的 ， 我 们 将 以 计算 装 
配方 法 人 的 总 体 均 值 的 95% 的 置信 区 间 估 计 为 例 ， 加 以 说 明 。 
我 们 从 第 8 章 区 间 估 计 的 学 习 中 知道 ,总 体 均值 的 区 间 估 计 的 一 般 形式 为 
务 - 本 -让 (13-15) 
式 中 ，s 为 总 体 标 准 差 o 的 估计 。 因 为 o 的 最 佳 估 计 是 由 “Pooled StDev” 给 出 ， 所 以 我 们 将 数值 5.323 代入 
式 (13-15) 中 的 s。t 值 的 自由 度 是 12， 它 就 是 误差 平方 和 的 自由 度 。 于 是 ，iows =2. 179， 我 们 得 到 
5. 323 
/5 
因此 ， 装 配方 法 A 的 置信 水 平 为 95% 的 置信 区 间 是 62 -5. 19 =56. 81 至 62 +5.19 =67. 19。 因 为 Chemitech 公司 实 
验 的 例子 中 三 种 方法 的 样本 容量 都 相等 ， 所 以 装配 方法 B 与 装配 方法 C 的 置信 区 间 也 可 由 各 自 的 样本 均值 加 减 
5. 19 构成 。 因 此 ， 从 Minitab 所 给 出 的 输出 图 13-5 中 我 们 可 以 看 到 : 这 三 个 置信 区 间 的 宽度 是 相同 的 。 


13. 2.6 kk 个 总 体 均值 相等 的 检验 : 一 项 观测 性 研究 

我 们 已 经 说 明了 ， 对 于 一 个 完全 随机 化 实验 设计 ， 怎 样 应 用 方差 分 析 来 检验 个 总 体 均值 是 否 相 等 的 问题 。 
重要 的 是 要 理解 : ANOVA 也 可 以 利用 一 项 观测 性 研究 得 到 的 数据 ， 来 检验 三 个 或 三 个 以 上 总 体 均值 是 否 相等 的 
问题 。 作 为 一 个 例子 ， 让 我 们 考虑 National Computer Produet (NCP) 公司 的 情况 。 

NCP 公司 在 位 于 亚特兰大 、 达 拉 斯 以 及 西雅图 的 工厂 生产 打印 机 与 传真 机 。 为 了 考察 在 这 些 工厂 中 有 多少 员 
工 了 解 质量 管理 方面 的 知识 ， 管 理 人 员 从 每 个 工厂 抽取 一 个 由 6 名 员工 组 成 的 随机 样本 ， 并 对 他 们 进行 质量 意识 


62 +2.179 x ="024|5. 19 
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考试 。18 名 员工 的 考试 成 绩 列 在 表 13-4 中 ， 每 一 组 的 样本 均值 、 样 本 方差 及 样本 标准 差 也 在 表 中 给 出 。 管 理 人 


员 希 望 利用 这 些 数据 来 检验 假设 : 三 个 工厂 的 平均 表 15-4 18 各 员 王 的 考试 成 质 
考试 成 绩 是 相同 的 。 站 
我 们 规定 总 体 1 为 位 于 亚 特 兰 尖 工厂 的 全 体 员  。。 。 亚 特 关 大 达拉斯 ， 西雅图 
工 ,总体 2 为 位 于 达拉斯 工厂 的 全 体 员工 ， 总 体 3 2 = 
为 位 于 西雅图 工厂 的 全 体 员 工 。 令 i 后 可 
Hi = 总体 1 的 平均 考试 成 绩 76 74 69 
j= 总 体 2 的 平均 考试 成 绩 ye 4 
= 总 体 3 的 平均 考试 成 绩 样本 均值 79 74 66 
pe J、j、 pa 的 实际 数 。 ”样本 方差 34 20 32 
值 ， 了 a 
假设 。 


Ho:p = ps = ps 
H,: 总 体 均 值 不 全 相等 
注意 : 对 于 NCP 公司 观测 性 研究 进行 的 假设 检验 ， 与 对 于 Chemitech 公司 的 实验 进行 的 假设 检验 是 完全 相同 
的 。 事 实 上 ,我 们 用 于 分 析 Chemitech 公司 实验 的 方差 分 析 方 法 ， 也 同样 可 以 用 来 分 析 NCP 公司 的 观测 性 研究 得 
到 的 数据 。” 
即使 在 分 析 时 使 用 同样 的 ANOVA 方法 ,但 值得 注意 的 是 ，NCP 公司 的 观测 性 统计 研究 不 同 于 Chemitech 公司 
的 实验 性 统计 研究 。 进 行 NCP 公司 研究 的 人 员 无 法 控制 如 何 将 员工 个 人 指派 给 工厂 。 也 就 是 说 ， 工 厂 已 经 处 在 正 
常 的 运转 中 ， 并 和 且 一 名 特定 的 员工 已 在 三 家 工厂 中 的 一 家 工作 。NCP 公司 所 能 做 的 就 是 从 每 一 家 工厂 中 抽取 6 名 
员工 组 成 一 个 随机 样本 ， 并 且 实 施 质 量 意识 考试 。 如 果 为 了 归 类 为 实验 性 研究 ，NCP 公司 就 必须 随机 地 抽取 18 
名 员工 ， 然 后 以 随机 的 方式 将 每 一 名 员工 指派 到 三 家 工厂 中 的 一 家 工作 。 
1. 总 样本 均值 也 可 以 按照 上 个 样本 均值 的 加 权 平 均值 来 计算 。 
二 TX 十 NW 十 十 TEN. 
nr 
在 各 个 样本 均值 色 给 出 的 情况 下 ， 利 用 这 个 公式 计算 总 样本 均值 较 式 (13-3) 简单 。 
2. 如 果 每 个 样本 都 由 元 个 观测 值 组 成 ， 则 式 (13-6) 可 以 写作 
开 和 ij = Nr 
MSTR = -Tn = p> 和 
注意 : 当 我 们 引入 er 的 处 理 间 估计 的 概念 时 ， 这 个 结果 与 我 们 在 13.2 节 中 介绍 的 式 (13-6) 是 相同 的 。 
式 (13-6) 是 上 面 结 果 在 样本 容量 不 等 时 的 简单 推广 。 
3. 车 每 个 样本 有 nn 个 观测 值 ， 则 nn = 向; 于 是 ，mr -有 = 大 (nn 一 1),， 并 且 式 (13-9) 可 以 重 写成 如 下 形式 。 
2 (nn — 1)s (x~1) Ys 5 
Me 
摘 和 名 话说 ， 若 样本 容量 相同 ， 则 MSE 恰好 为 上 个 样本 方差 的 算术 平均 值 。 注 意 : 当 我 们 引入 o 的 处 理 内 
估计 的 概念 时 ， 上 式 与 我 们 在 第 13.2 节 中 使 用 过 的 式 (13-9) 相同 。 


日 练习 第 8 题 将 要 求 您 利用 方差 分 析 程 序 来 分 析 NCP 公司 的 数据 。 
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方法 
2. 在 一 决 完全 随机 化 设计 中 ， 因 子 有 5 个 水 平 ， 对 于 因子 
的 每 一 个 水 平 有 7 个 实验 单元 。 完 成 下 面 的 ANOVA 表 。 


方差 来 源 ”平方 和 ”自由 度 ” 均 方 广 户 什 


处 理 300 
误差 
总 计 460 


4. 在 一 个 检验 三 个 不 同 处 理 的 输出 水 平 的 实验 设计 
中 ,得 到 了 下 列 结果 : SST = 400，SSTR = 150， 
ns=19。 建 立 ANOVA 表 ， 并 且 在 a =0.05 的 显著 
性 水 平 下 ， 对 三 个 处 理 的 平均 输出 水 平 之 间 有 无 显 
著 差 异 进 行 检验 。 

6. 对 于 下 面 的 完全 随机 化 实验 设计 进行 方差 分 煌 计 
算 。 在 @=0.05 的 显著 性 水 平 下 ， 处 理 均值 之 间 是 
否 存 在 显著 差异 ? 


处 理 
A B C 
136 107 92 
120 114 82 
113 125 85 
107 104 101 
131 107 89 
114 109 R17 
129 97 110 
102 114 120 
104 98 
89 106 
好 119 107 100 
才 146. 86 96. 44 173. 78 





应 用 

8. 参阅 表 13-4 的 NCP 公司 的 数据 。 建 立 ANOVA 表 。 
在 a=0.05 的 显著 性 水 平 下 ， 检验 三 家 工厂 的 平均 
考试 成 绩 之 间 是 否 存在 显著 差异 。 

10. 审计 人 员 必 须 以 自己 的 直接 经 验 、 间 接 经 验 或 者 
将 两 种 经 验 的 结合 为 依据 ， 对 一 份 审计 报告 的 各 
个 方面 作出 判断 。 在 一 项 研究 中 ， 要 求 审 计 人 员 对 
一 份 审计 报告 中 发 现 的 错误 频率 作出 判断 。 将 审 


13. 3” 多重 比较 方法 


12; 





A ; 
计 人 员 作 出 的 判断 与 实际 结果 进行 上 比较。 假设 从 
一 项 类 似 的 研究 中 得 到 下 面 的 数据 ， 较 低 的 分 数 
表示 较 好 的 判断 力 。 


直接 经 验 间接 经 验 两 种 经 验 的 结合 


17.0 16.6 人 
18. 3 22.2 24.0 
15.8 20. 5 "2 
18. 2 18.3 26,8 
20:2 24.2 WS 
16.0 19.8 25.8 
L133 A 24.2 


在 a=0.05 的 显著 性 水 平 下 ， 检 验 判 断 的 依据 是 否 
影响 判断 的 质量 。 你 有 何 结论 ? 

《消费 者 报告 》 厅 志 对 提供 全 方位 服务 的 餐厅 和 连 
琐 店 进行 了 148 599 次 访问 ， 完 成 了 餐厅 客户 的 
满意 度 调查 ( Consumer Reports website ) 。 在 研究 
中 ， 其 中 一 个 变量 是 吃 一 上 顿 饭 的 价格 ， 即 平均 每 
人 吃 一 次 晚餐 及 饮料 支付 的 金额 ， 不 包含 小 费 。 
假设 ,《 太 阳 海 岸 时 报 》 (Sun Coast Times) 的 一 
位 记者 认为 ， 她 的 读者 最 感 兴趣 的 问题 是 ， 对 位 
于 南 卡 罗 来 纳 州 默 特 尔 海滩 ( Myrtle Beach ) 
Grand Strand 地 区 的 餐厅 进行 一 项 类 似 的 研究 。 该 
记者 抽取 了 8 家 海鲜 餐厅 、8 家 意大利 风味 餐厅 
和 8 家 牛排 餐厅 组 成 一 个 样本 。 对 24 家 抽取 出 来 
的 餐厅 进行 调查 ， 得 到 吃 一 上 顿 饭 的 价格 数据 如 下 
表 所 示 。 在 a=0.05 的 显著 性 水 平 下 ， 检 验 三 种 
类 型 的 餐厅 ， 吃 一 额 饭 的 平均 价格 (单位: 美 
元 ) 之 间 是 否 存 在 显著 差异 。 


意大利 风味 餐厅 海鲜 餐厅 牛排 餐厅 
(美元 ) (美元 ) (美元 ) 
12 16 24 
13 18 19 
15 17 23 
17 26 25 
18 23 21 
20 15 22 
17 19 27 
24 18 31 


当 我 们 应 用 方差 分 析 方 法 检验 个 总 体 均值 是 否 相 等 时 ， 拒 绝 原 假设 只 能 让 我 们 得 出 个 总 体 的 均值 不 全 
相等 的 结论 。 在 某 些 情况 下 ， 我 们 希望 再 向 前 迈进 一 步 ， 并 确定 在 个 均值 中 间 到 底 哪 几 个 均值 之 间 存 在 差 
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异 。 本 节 的 目的 是 说 明 ， 如 何 使 用 多 重 比 较 方 法 ( multiple comparison 机 抽风 在 成 对 的 总 体 均 值 之 间 进 行 
统计 比较 。 


13. 3. 1 Fisher 的 LSD 方法 


假设 , 方差 分 析 给 出 的 统计 依据 ， 使 得 我 们 拒绝 总 体 均值 相等 的 原 假设 。 在 这 种 情况 下 ，Fisher 的 最 小 显著 
性 差异 (least significant difference，LSD) 方法 可 以 用 来 确定 ， 到 底 在 哪些 均值 之 间 存 在 着 差异 。 为 了 说 明 在 对 总 
体 均值 进行 两 两 比较 时 如 何 使 用 Fisher 的 LSD 方法 ,我 们 仍然 回 到 13. 1 节 介绍 过 的 Chemitech 公司 实验 的 例子 。 
利用 方差 分 析 ， 我 们 已 经 得 出 三 种 装配 方法 每 周 生 产 的 过 滤 系 统 的 平均 数量 是 不 相同 的 结论 。 在 这 种 情况 下 ， 进 
一 步 的 问题 是 : 尽管 我 们 相信 三 种 装配 方法 每 周 生 产 的 过 滤 系 统 的 平均 数量 有 差异 ， 但 差异 出 现在 哪 两 种 装配 方 
法 之 间 呢 ? 也 就 是 说 ， 是 总 体 1 和 总 体 2 的 均值 不 同 ， 还 是 总 体 1 和 总 体 3 的 均值 不 同 ， 抑 或 是 总 体 2 和 总 体 3 
的 均值 不 同 呢 ? 下 面 概 况 了 成 对 总 体 均 值 进行 比较 的 Fisher 的 LSD 方法 。 

















现在 ， 让 我 们 在 a=0. 05 的 显著 性 水 平 下 ， 应 用 这 一 方法 来 判定 总 体 1 (方法 A) 和 总 体 2 (方法 B) 的 
均值 之 间 是 否 存 在 显著 的 差异 。 由 表 13-1 可 知 ， 方 法 A 的 样本 均值 为 62， 方 法 B 的 样本 均值 为 66。 由 表 13-3 
可 知 ，MSE 的 值 为 28. 33， 它 是 o 的 估计 ， 并 且 自 由 度 为 12。 对 于 Chemitech 公司 的 实验 数据 ,检验 统计 量 的 
值 是 


PMR le 


{28 33( 方 # 了 
因为 这 是 一 个 双边 检验 ，p- 值 是 :1 分布 曲线 下 ，t =:S 二 9 下 侧 的 面积 的 两 倍 。 由 附录 B 表 B-2 可 知 ， 自 由 度 

为 12 的 1 分布 表 给 出 了 下 面 的 信息 。 才 

上 侧 曲 线 下 方面 积 

t+ 值 (自由 度 =12) 









0. 873 1. 356 1.782 2. 179 2. 681 3. 055 


=1. 19 


:分 布 表 仅仅 包含 :的 正 值 。 但 是 ， 因 为 1 分布 是 对 称 的 ， 因 此 我 们 能 够 求 出 + 分布 曲线 下 ，+ =1, 19 右 侧 的 面 
积 ， 两 售后 就 能 得 到 对 应 于 += -1.19 的 p- 值 。 我 们 看 到 ,+=1.19 介 于 0.873 和 1.356 之 间 ， 它 们 所 对 应 的 面积 
介 于 0.20 和 0. 10 之 间 ， 将 对 应 的 面积 两 倍 后 ， 得 到 p- 值 介 于 0.40 和 0. 20 之 间 。Exeel 或 者 Minitab 都 能 给 出 精确 
的 p- 值 是 0.2571。 因 为 p- 值 大 于 a=0.05， 所 以 我 们 不 能 拒绝 原 假设 。 因 此 ， 我 们 不 能 得 出 结论 : 方法 A 每 周 生 
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产 的 过 滤 系统 总 体 的 平均 数量 与 方法 B 每 周 生 产 的 过 滤 系统 总 体 的 平均 数量 是 不 同 的 。s 
许多 有 实际 经 验 的 专业 人 员 发 现 ， 通 过 判断 样本 均值 之 差 的 大 小 而 决定 是 否 拒绝 H, 更 容易 些 。 在 这 种 情形 
下 ,检验 统 计量 为 元 -元 ， 检 验 可 按 以 下 步 又 进行 。 





jw Chemitech 公司 实验 的 例子 ， LSD 的 值 为 


LSD = 2.179 ax (+1) = 志 34 


注意 : 当 样 本 容量 相等 时 ， 只 能 计算 出 一 个 LSD 的 值 。 在 这 种 情形 下 ， 我们 可 以 简单 地 将 任何 两 个 样 
本 均值 之 差 的 大 小 与 LSD 的 值 做 比较 。 例 如 ， 总 体 1 (方法 A) 与 总 体 3 (方法 C) 的 样本 均值 之 差 为 62 - 
52 = 10 ， 因 为 该 差 值 比 7. 34 大 ， 这 就 意味 着 ， 我 们 能 够 拒绝 方法 A 与 方法 C 每 周 生 产 的 过 滤 系统 总 体 的 平 
均 数 量 是 相等 的 原 假设 。 类 似 地 ， 由 于 总 体 2 与 总 体 3 的 样本 均值 之 差 为 66 -52 =14 >7.34， 所 以 我 们 也 
能 够 拒绝 方法 B 与 方法 C 每 周 生 产 的 过 滤 系 统 总 体 的 平均 数量 是 相等 的 原 假设 。 实 际 上 ， 我 们 的 结论 是 ， 
方法 A 和 方法 B 这 两 种 装配 方法 每 周 生 产 的 过 滤 系统 总 体 的 平均 数量 与 方法 C 每 周 生 产 的 过 滤 系 统 总 体 的 
平均 数量 均 不 相同 。 

Fisher 的 LSD 方法 也 可 用 于 建立 两 个 总 体 均值 之 差 的 置信 区 间 估 计 。 一 般 步 骤 如 下 。 











如 果 式 (13-18) 的 置信 区 间 包 含 数值 0， 则 我 们 不 能 拒绝 两 个 总 体 均 值 相等 的 原 假 设 。 但 是 ， 如 果 
式 (13-18) 的 置信 区 间 不 包含 数值 0， 则 我 们 可 以 得 出 两 个 总 体 均值 之 间 存在 差异 的 结论 。 对 于 Chemitech 公司 实 
验 的 例子 ， 前 面 已 经 得 到 LSD =7.34 (对 应 于 hws =2. 179) 。 于 是 总体 1 与 总 体 2 均值 之 差 的 置信 水 平 为 95% 
的 置信 区 间 估 计 是 (62 - 66) 27.34= -4+7.34= -11.34~3.34; 由 于 该 区 间 包含 数值 0， 所 以 我 们 不 能 拒绝 两 
个 总 体 均值 相等 的 假设 。 


日 ”附录 下 给 由 了 如 何 使 用 Exeel 或 者 Minitab 计算 p- 值 的 步 怠 : 
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13. 3. 2 ”第 一 类 错误 概率 

我 们 开始 讨论 Fisher 的 LSD 方法 的 前 提 是 ,方差 分 析 为 我 们 提供 了 拒绝 总 体 均值 相等 的 原 假设 的 统计 证 据 。 
在 这 种 情形 下 ,我 们 说 明了 如 何 使 用 Fisher 的 LSD 方法 来 确定 : 总 体 均值 之 间 的 差异 到 底 出 现在 哪些 均值 之 间 。 
在 技术 上 ，Fisher 的 LSD 方法 被 称 为 保护 性 或 限制 性 LSD 检验 ， 这 是 因为 ， 只 有 当 我 们 首先 找到 一 个 用 于 方差 分 
析 的 显著 的 下 值 时 ， 我们 才 使 用 LSD 检验 为 了 弄 清 楚 在 多 重 比较 检验 中 ， 这 种 区 别 为 什么 是 重要 的 ， 我 们 需要 
解释 一 下 比较 方式 的 第 工 类 错误 概率 与 实验 方式 的 第 I 类 错误 概率 的 区 别 。 

在 Chemitech 公司 实验 的 例子 中 ， 我 们 利用 Fisher 的 LSD 方法 做 了 三 个 成 对 的 两 两 比较 。 


检验 1 检验 2 检验 3 
H,; i 三 作 2 Hs Ki = Ka H,: Ks =W3 
Hs pW pr, H,; pw 天 js H, : py # ps 


在 每 一 种 情形 下 ， 我 们 都 使 用 a =0. 05 的 显著 性 水 平 。 因 此 ， 对 每 个 检验 ， 如 果 原 假设 为 真 ， 则 犯 第 I 类 错 
误 的 概率 为 a =0.05; 因此 ， 对 每 个 检验 ， 不犯 第 I 类 错误 的 概率 就 是 1 -0.05 =0.95。 在 讨论 多 重 比 较 方法 时 ， 
我 们 把 这 个 第 I 类 错误 的 概率 (w =0.05) 称 为 比较 方式 的 第 I 类 错误 概率 (comparisonwise Type I error rate); 比 
较 方 式 的 第 工 类 错误 概率 表示 了 与 单个 的 两 两 比较 相 联系 的 显著 性 水 平 。 

现在 我 们 考虑 一 个 略为 不 同 的 问题 。 在 进行 三 次 成 对 的 两 两 比较 时 ， 三 次 检验 中 至 少 有 一 次 犯 第 ] 类 错误 的 概率 
是 多 少 ? 为 回答 这 个 问题 ， 我 们 注意 到 : 三 次 检验 都 不 犯 第 错误 的 概率 为 0.95 x0.95 x0.95 =0. 857 4。” 因 此， 
至 少 有 一 次 犯 第 工 类 错误 的 概率 为 1 -0. 8574 =0. 1426。 这 样 ， 当 我 们 用 Fisher 的 LSD 方法 进行 三 次 成 对 的 两 
两 比较 时 ， 对 应 的 犯 第 I 类 错误 概率 已 经 不 是 0.05， 其实 是 0. 142 6; 我 们 将 这 个 错误 概率 称 为 总 的 或 实验 方 
式 的 第 I 类 错误 概率 ( experimentwise Type [| error rate ) 。 为 避免 混 消 ， 我 们 将 实验 方式 的 第 I 类 错误 概率 记 
ri 

对 于 总 体 个 数 较 多 的 间 题 ， 犯 实验 方式 第 I 类 错误 的 概率 就 会 变 得 比较 大 。 例 如 ， 对 于 有 5 个 总 体 ，10 个 可 
能 成 对 的 两 两 比较 的 问题 。 在 比较 方式 的 第 I 类 错误 概率 为 a=0.05 时 ， 如 果 我 们 利用 Fisher 的 LSD 方法 检验 所 
有 可 能 的 成 对 的 两 两 比较 ， 则 犯 实验 方式 第 I 类 错误 的 概率 将 是 1- (1 -0.05)"”=0.40。 在 这 种 情形 下 ， 有 实际 
经 验 的 专业 人 员 将 会 寻求 其 他 方法 以 更 好 地 控制 犯 实验 方式 第 工 类 错误 的 概率 。 

控制 总 的 犯 实验 方式 错误 概率 的 一 种 方法 被 称 为 Bonferroni 修正 方法 ， 该 方法 在 每 一 次 检验 中 都 使 用 一 个 
较 小 的 比较 方式 错误 概率 。 人 例如， 如果 我 们 想 要 检验 C 个 成 对 的 两 两 比较 ， 并 希望 总 的 犯 实验 方式 第 工 类 错 
误 的 最 大 概率 为 eew ， 那 么 我 们 只 要 简单 地 将 犯 比较 方式 错误 概率 等 于 arw/C 即 可 。 在 Chemitech 公司 实验 的 
例子 中 ， 如 果 我 们 想 要 使 用 Fisher 的 LSD 方法 检验 所 有 三 个 成 对 的 两 两 比较 ， 并 和 且 希望 犯 实 验方 式 错误 的 最 大 
概率 为 asv =0.05 时 ， 那 么 我 们 只 要 设 比 较 方式 错误 概率 为 a =0.05/3 =0.017 即 可 。 对 于 有 5 个 总 体 ，10 种 
可 能 的 成 对 的 两 两 比较 的 问题 ，Bonferroni 修正 方法 建议 的 比较 方式 错误 概率 为 0.05/10 =0.005。 回 忆 一 下 第 
9 章 有 关 假 设 检验 的 讨论 ， 对 于 固定 的 样本 容量 ,减少 犯 第 I 类 错误 的 概率 将 导致 增加 犯 第 工 类 错误 的 概率 ， 
而 第 工 类 错误 是 指 : 当 两 个 总 体 的 均值 实际 上 不 相等 时 ， 却 接受 了 两 个 总 体 均 值 相等 的 原 假设 。 由 于 犯 第 
类 错误 的 风险 增加 ， 因 此 ， 许 多 有 实际 经 验 的 专业 人 员 不 愿 在 一 个 比较 低 的 犯 比较 方式 第 I 类 错误 的 概率 下 
进行 单个 的 两 两 比较 检验 。 

在 这 种 情况 下 ， 还 有 几 种 其 他 方法 ， 如 Tukey 方法 与 Duncan 多 重 区 域 检 验 ， 也 可 用 于 解决 这 类 问题 。 但 是 ， 
究竟 哪 种 方法 是 “最 优 的 ” ， 在 统计 学 界 存 有 较 大 争议 。 事 实 上 ， 没 有 任何 一 种 方法 对 所 有 类 型 的 问题 都 是 最 
优 的 。 


日 ”假设 三 次 检验 是 独立 的 ， 因 此 我 们 可 以 简单 地 将 各 个 概率 连 乘 得 到 三 个 事件 的 联合 概率 。 事 实 上 ， 因 为 在 每 一 次 检验 中 都 使 用 了 均 
方 误差 MSE， 所 以 三 次 检验 并 不 是 独立 的 ; 因此 ， 所 涉及 的 犯错 误 的 概率 比 已 经 表明 的 更 大 。 
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14. 下 表 的 数据 来 自 一 个 完全 随机 化 设计 。 在 下 面 的 和 
计算 中 ， 设 a=0.05。 均 时 间 是 否 相等 。 
Taal CM Maa 机 器 1 机 器 2 机 器 3 机 器 4 
i 6.4 8.7 11.1 9.9 
i oy 7.8 这 10.3 1228 
所 洒 5.3 9.4 9.7 12.1 
人 4 10. 1 10.3 10.8 
- 8.4 9.2 9.2 11.3 
每 外 Ww V8 7.3 9.8 8.8 11.5 
于 96. 67 97. 34 81. 99 


~ 


a. 利用 方差 分 析 检 验 : 3 个 处 理 的 均值 之 间 是 否 存 20 美国 职业 棒球 小 联盟 有 14 支 3-A 级 球 队 ， 这 些 球 


在 显著 的 差异 。 队 分 为 北 区 、 南 区 和 西区 。14 支 球 队 在 参加 国际 
b. 利用 Fisher 的 LSD 方法 确定 哪些 均值 存在 差异 。 联盟 (Intemational League) 的 比赛 时 ， 每 场 比赛 
应 用 的 平均 观众 人 数 如 下 表 所 示 (The Biz of Baseball 
六 16. 参阅 第 15 题 。 利 用 Fisher 的 LSD 方法 ， 建 立 一 个 制 website，2009 年 1 月 )。 下 表 中 还 给 出 了 球 队 的 其 
造 商 1 与 制造 商 2 的 均值 差 的 95% 的 置信 区 间 佑 计 。 他 统计 资料 :“W” 表 示 球 队 赢 球 ，“L” 表 示 球 队 
18. 为 检验 4 人 台 机 器 发 生 故 障 的 时 间 (单位 ; 小 时 ) 之 输 球 ,“PCT” 表 示 球 队 意 球 的 比例 。 
间 是 否 存 在 显著 差异 ， 我 们 得 到 的 数据 如 下 表 所 示 。 a. 在 a=0.05 的 显著 性 水 平 下 ,检验 三 个 地 区 每 
a 在 a=0.05 的 显著 性 水 平 下 ,4 台 机 器 发 生 故 障 场 比 赛 的 平均 观众 人 数 是 否 存 在 显著 差异 。 
的 总 体 平均 时 间 之 间 ， 如果 有 差异 的 话 ， 是 什 b. 在 a=0.05 的 显著 性 水 平 下 ， 利 用 Fisher 的 LSD 
么 样 的 差异 ? 方法 ， 和 确定 差异 发 生 在 哪些 地 区 之 间 。 
球 队 名 称 地 区 W L PCT 观众 人 数 
Buffalo Bisons 北 区 66 77 0. 462 8 812 
Lehigh Valley IronPigs 北 区 55 89 0. 382 8.479 
Pawtucket Red Sox 北 区 85 58 0. 594 9.097 
Rochester Red Wings 北 区 714 70 0. 514 6913 
Seranton- Wilkes Barre Yankees 北 区 88 56 0. 611 7147 
Syracuse Chiefs 北 区 69 73 0. 486 5765 
Charlotte Knights 南 区 63 78 0. 447 4 526 
Durham Bulls 南 区 74 70 0, S14 6995 
Norfolk Tides 南 区 64 78 0. 451 6 286 
Richmond Braves 南 区 63 78 0. 447 4455 
Columbus Clippers 西区 69 73 0. 486 7795 
Indianapolis Indians 西区 68 76 0.472 8538 
Louisville Bats 西区 88 $56 0. 611 9 152 


Toledo Mud Hens 西区 75 69 0. 52j 8 234 
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13.4 随机 化 区 组 设计 


至 此 ， 我 们 已 经 讨论 了 完全 随机 和 化 设计 。 回 想 一 下 ， 为 检验 处 理 均 值 之 间 的 差异 ， 我 们 计算 下 值 时 使 用 了 比值 
F = MSIR (13-20) 
MSE 
每 当 外 部 因素 (实验 中 没有 考虑 到 的 因素 ) 引起 的 差异 使 得 式 (13-20) 中 的 分 母 MSE 变 大 时 ， 将 会 出 现 一 
个 问题 。 在 这 种 情况 下 , 式 (13-20) 的 下 值 将 会 变 小 。 于 是 ， 给 我 们 发 出 的 信号 是 处 理 均 值 之 间 不 存在 差异 ， 
而 这 样 的 差异 事实 上 却 是 存在 的 。 
本 节 我 们 将 介绍 一 种 被 称 为 随机 化 区 组 设计 (randomized block design) ”的 实验 设计 。 这 种 实验 设计 方法 是 通 
过 消除 MSE 项 中 来 自 外 部 的 变异 ， 以 达到 控制 变异 外 部 来 源 的 目的 。 该 设计 方法 为 真实 的 误差 方差 给 出 了 的 一 个 
更 好 的 估计 ， 并 且 在 查 明 处 理 均值 之 间 差 异 的 能 力 方面 ， 得 到 了 一 个 更 加 有 效 的 假设 检验 方法 。 作 为 阐述 这 种 实 
验 设 计 方 法 的 剑 子 ， 我 们 考虑 空中 交通 管理 员 的 工作 压力 问题 。 


13. 4. 1 ”空中 交通 管理 员工 作 压 力 测试 


一 项 测试 空中 交通 管理 员 的 疲劳 程度 与 工作 压力 的 研究 得 到 的 结果 是 建议 改造 并 重新 设计 管理 员工 作 站 。 考 
虑 了 工作 站 的 若干 设计 方案 后 ， 三 种 最 有 可 能 减轻 管理 员工 作 压 力 的 工作 站 具体 方案 被 选 出 。 关 键 问 题 是 : 三 种 
方案 对 管理 员工 作 压 力 的 影响 程度 有 多 大 差异 ? 为 了 回答 这 个 问题 ， 我 们 需要 设计 一 个 实验 ， 它 能 在 每 种 工作 站 
方案 下 给 出 空中 交通 管理 员工 作 压 为 的 测度 。 

在 完全 随机 化 实验 中 ， 管 理 员 的 随机 样本 被 指派 给 每 种 工作 站 方案 。 和 但 是 ,管理 员 们 认为 ， 在 应 对 有 压力 的 
局 面 时 ， 他 们 的 能 力 是 大 不 相同 的 。 一 名 管理 员 认 为 是 高 压 为 而 对 于 另 一 名 管理 员 来 说 可 能 是 中 等 压力 或 甚至 是 
低压 力 。 因 此 ， 当 考虑 变异 的 组 内 来 源 〈《MSE) 时 ， 我们 必须 意识 到 ， 该 变异 既 包括 随机 误差 又 包括 管理 员 个 人 
差异 导致 的 误差 。 事实 上 ， 管 理 者 期 望 空中 交通 管理 员 个 人 的 变异 性 是 MSE 项 的 一 个 主要 贡献 者 。 

将 个 人 差异 的 影响 分 离 出 来 的 一 种 办 法 是 使 用 随机 化 区 组 设计 。” 这 样 的 设计 能 识别 出 源 自 管 理 员 个 人 差异 的 
变异 性 ， 并 将 其 从 MSE 项 中 剔除 。 随 机 化 区 组 需要 管理 员 的 一 个 单 样本 。 样 本 中 每 个 管理 员 要 分 别 在 三 种 工作 站 
方案 下 接受 检验 。 用 实验 设计 的 术语 ， 工 作 站 是 影响 因子 ， 管 理 员 是 区 组 。 与 工作 站 因子 有 关 的 三 个 处 理 或 三 
个 总 体 对 应 三 种 工作 站 方案 。 为 简化 起 见 ， 我 们 称 工 作 站 为 系统 A、 系 统 B 和 系统 C。 

随机 化 区 组 设计 中 的 随机 化 是 指 处 理 ( 系统 ) 指派 给 管理 员 的 顺序 是 随机 的 。 如 果 每 个 管理 员 按 照 同 样 的 顺 
序 测试 三 个 系统 ， 任 何 观测 到 的 系统 间 差 异 都 可 能 归 因 于 测试 的 顺序 ， 而 不 是 真正 的 系统 差异 。 

为 给 出 必要 的 数据 ， 将 三 种 工作 站 安装 在 俄 玄 俄 州 奥 柏 林 的 克利 夫 兰 控制 中 心 。 随 机 选 出 6 名 管理 员 ， 并 指 
派 他 们 操作 每 个 系统 。 对 于 参加 研究 的 每 一 名 党 理 。_ 表 13-5 空中 交通 管理 员工 作 压力 测试 的 随机 化 区 组 设计 
员 ， 随 后 要 进行 一 次 面试 和 一 次 医学 体检 ， 面 试 和 体 二 
检 提 供 了 每 名 管理 员 在 每 个 系统 上 工作 压力 的 度量 。 系统 A 系统 B 系统 C 
数据 如 表 13-5 所 示 。 15 15 18 

表 13-6 是 收集 的 管理 员工 作 压 力 测 试 数据 的 汇 
总 。 在 该 表 中 ， 不 但 包括 了 列 合 计 〈 处 理 ) 与 行 合计 区 组 
(区 组 )， 而且 包 括 了 在 ANOVA 方法 中 计算 平方 和 时 
会 用 得 到 的 一 些 样本 均值 。 因 为 较 低 的 工作 压力 测试 
值 被 认为 是 比较 好 ， 所 以 样本 数据 看 起 来 似乎 文 持 系 
统 B， 因 为 它 的 平均 压力 等 级 为 13。 但 是 , 通常 的 同 题 依然 存在 : 对 于 三 个 系统 ， 样 本 数据 证 明了 总 体 的 平均 压 





龟 ”“ 当 实验 单元 的 差异 较 小 时 ， 完 全 随机 化 设计 是 有 用 的 。 如 果实 验 单元 的 差异 较 大 时 ， 通 常 利用 区 组 划分 (blocking) 将 实验 单元 划 
分 成 一 些 差异 较 小 的 组 。 

钙 ”商务 中 的 实验 性 研究 通常 包含 具有 高 度 差异 性 的 实验 单元 ， 因 此 ， 经 常 使 用 随机 化 区 组 设计 。 

全 ”实验 设计 中 的 区 组 划分 与 抽样 中 的 分 层 类 似 。 
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力 水 平 是 不 同 的 结论 吗 ? 也 就 是 说 ， 总 体 平 均 压 力 水 平 的 差异 在 统计 上 显著 吗 ? 类 似 完 全 随机 化 设计 方法 ， 方 差 
分 析 的 计算 可 以 用 来 回答 这 个 统计 问题 。 
表 13-6 空中 交通 管理 员工 作 压 力 测试 的 压力 数据 汇总 
处 理 
系统 A 系统 日 系统 C 


行 或 区 组 合计 区 组 均值 


, =48/3=16.0 
. =42/3=14.0 
: 367Y3= .0 
, =42/3=14.0 
=45/3 =15.0 
: 寻 39/3=13.0 


2 
00 
| 


区 组 





S 
il Sl 总 1 | 


列 或 处 理 合 计 81 78 93 252 人 0 


处 理 均 值 





13.4.2 ” ANOVA 方法 


随机 化 区 组 设计 的 ANOVA 方法 要 求 我 们 将 总 平方 和 (SST) 分 解 成 三 个 部 分 : 处 理 平方 和 (SSTR) ， 区 组 平 
方 和 “(SSBL) 和 误差 平方 和 (SSE) 。 该 分 解 的 公式 如 下 。 
SST = SSTR + SSBL + SSE (13-21 ) 
我 们 将 这 一 平方 和 的 分 解 汇 总 于 表 13-7 所 示 的 随机 化 区 组 设计 的 ANOVA 表 中 。 表 中 所 使 用 的 记号 分 别 表 
示 : 大 代表 处 理 的 个 数 ; 代表 区 组 的 个 数 ; ny 代表 总 样本 容量 (ny = 权 )。 


表 13-7 k 个 处 理 ，b 个 区 组 的 随机 化 区 组 设计 的 ANOVA 表 


方差 来 源 平方 和 自由 度 均 方 F 户 值 
SSTR MSTR 
处 理 SSTR k-l i MSE 
区 组 SSBL 站 本 MSBL = 
Te 
误差 SSE (k-1) 6-1) We 
总 计 SST nr—l 


注意 : ANOVA 表 还 显示 出 ， 总 自由 度 wz -1 如 何 被 分 解 成 处 理 的 自由 度 上 -1、 区 组 的 自由 度 b-1 和 误差 项 
的 自由 度 人 -1)(8 -1) 的 和 。 均 方 列表 示 的 是 平方 和 被 自由 度 除 ，F = MSTR/MSE 是 用 于 检验 处 理 均值 之 间 差 
异 显 著 性 的 F 比 。 随 机 化 区 组 设计 的 主要 贡献 是 : 通过 划分 区 组 ,我 们 将 管理 员 个 人 的 差异 从 MSE 项 中 剔除 ， 并 
且 得 到 了 一 个 在 三 种 可 供 选 择 的 工作 站 方案 中 压力 差异 的 更 有 力 的 检验 。 


13. 4.3 计算 与 结论 


为 了 检验 随机 化 区 组 设计 中 的 处 理 均 值 之 间 差 异 ， 我 们 需要 计算 了 统计 量 。 为 了 计算 统计 量 , 需要 计算 
MSTR 和 MSE。 为 了 计算 这 两 个 均 方 值 ， 我 们 必须 首先 计算 SSTR 和 SSE; 此 外 ， 我 们 还 要 计算 SSBL 和 SST。 为 简 
化 演示 ， 我 们 分 四 步 完 成 计算 。 除 了 k，5b，ny 定义 如 前 外 ， 男 外 还 使 用 了 下 列 记号 : 

% 代 表 在 区 组 i 中 对 应 于 处 理 j 的 观测 值 ; x ., 代 表 第 j 个 处 理 的 样本 均值 ; *,. 代表 第 i 个 区 组 的 样本 均值 ; x 
代表 总 样本 均值 。 

第 1 步 : 计算 总 平方 和 (SST)。 
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SSY = > (xi 一 二) (13-22) 

第 2 步 : 计算 处 理 平方 和 (SSTR) 。 ee 
SSTR E py (x — x)” (13-23) 

第 3 步 : 计算 区 组 平方 和 (SSBL) 。 
SSBL = 3 (ww = (13-24) 

第 4 步 ， 计算 误差 平方 和 (SSE) 。 
SSE = SST - SSTR - SSBL (13-25) 


对 于 表 13-6 中 的 空中 交通 管理 员 的 数据 ， 根 据 这 些 计算 步骤 得 到 下 面 的 平方 和 。 

第 1 此 SSS< (1 dd CIS oo 1d) 4 + + (13 = 14)* = 70 

第 2 步 ,SSTR =.6 x[(13.5=14)*+(13.0-14)’ +(15.5 -14)”] = 21 

第 3 站 WSSBR 4% [C16=14) +(IMc44) (12 -14) +{M=14)" + (1 =14) + (13-14):] =30 
第 4 步 : SSE =;70 -21 -30=19 

这 些 平方 和 分 别 除 以 它们 各 上 自 的 自由 度 ， 得 到 如 表 13-8 所 示 的 对 应 的 均 方 值 。 


表 13-8 空中 交通 管理 员工 作 压 力 测试 的 ANOVA 表 


方差 来 源 平方 和 自由 度 均 方 F 产值 
处 理 21 2 10. 5 10. 5/1.9 =5. 53 0. 024 
区 组 30 5 6.0 
误差 19 10 1.9 
总计 70 17 


在 a=0.05 的 显著 性 水 平 下 ， 我 们 进行 假设 检验 。 检 验 统计 量 的 值 是 
MSTR _ 10. 5 


检验 统计 量 分 子 的 自由 度 是 大 -1=3 -1=2， 分 母 的 自由 度 是 (k-1)(b-1) =(3-1)(6-1) =10。 因 为 我 
们 仅 是 对 大 的 检验 统计 量 的 值 拒 绝 原 很 设 ，p- 值 是 对 应 于 下 =5.53 的 下 分 布 上 侧 曲线 下 方 的 面积 。 从 附录 B 的 
表 B-4 我 们 查 出 : 对 于 分 子 自由 度 为 2 和 分 母 自 由 度 为 10 的 五 =5-53 介 于 Fiwss =5.46 和 Fo =7.56 之 间 。 于 是 ， 
我 们 得 知 : F 分 布 上 侧 的 面积 或 p- 值 介 于 0.01 和 0.025 之 间 。 我 们 可 以 使 用 Excel 或 Minitab 得 到 对 应 于 FF =5. 53 
的 精确 的 p- 值 是 0.024。 由 于 p- 值 <a=0.05， 所 以 我 们 拒绝 原 假 设 HH, :py =, =,s， 并 且 得 出 结论 : 对 于 三 个 可 
供 选择 的 工作 站 ， 总 体 的 平均 压力 水 平 是 不 同 的 。 

关于 随机 化 区 组 设计 ， 我 们 可 以 做 一 些 一 般 性 的 注释 。 本 节 所 介绍 的 实验 设计 是 一 种 完全 的 区 组 设计 ; “ 完 
全 ”一 词 表 明 : 每 一 个 区 组 都 要 从 属于 所 有 上 正 个 处 理 。 就 是 说 ， 所 有 管理 员 (区 组 ) 要 在 所 有 三 个 系统 (处 理 ) 
下 接受 测试 。 如 果 某 些 (但 不 是 全 部 ) 处 理 被 用 于 每 个 区 组 ， 这 样 的 实验 设计 被 称 为 不 完全 区 组 设计 。 关 于 不 完 
全 区 组 设计 的 讨论 已 经 超出 了 本 书 的 范围 。 

因为 在 空中 交通 管理 员工 作 压 力 的 测试 中 ， 我 们 要 求 每 一 名 管理 员 要 使 用 所 有 三 个 系统 ， 这 一 要 求 保 证 了 该 
设计 为 完全 区 组 设计 。 但 是 ， 在 某 些 情 况 下 ， 区 组 的 划分 是 在 每 个 区 组 内 使 实验 单元 是 “相似 的 ”情况 下 而 实施 
的 。 例 如 ， 假 设 在 空中 交通 管理 员 的 一 个 预先 测试 中 ， 管 理 员 总 体 被 分 为 若干 个 组 ， 从 极 高 的 个 人 压力 组 到 极 低 
的 个 人 压力 组 。 在 每 一 个 压力 分 组 中 有 三 名 管理 员 参 加 研究 ， 这 样 我 们 就 实现 了 区 组 划分 。 这 样 每 个 区 组 将 由 同 
一 压力 组 的 三 名 管理 员 组 成 。 区 组 设计 中 的 随机 化 就 变 成 将 每 一 区 组 中 的 三 名 管理 员 随 机 地 指派 给 三 个 系统 。 

最 后 ， 我 们 要 注意 : 表 13-7 所 示 的 ANOVA 表 给 出 的 正 值 是 为 了 检验 处 理 的 影响 ， 而 不 是 检验 区 组 的 影响 。 
其 原因 在 于 实验 是 为 了 检验 单一 因素 一 一 工作 站 方案 而 设计 的 。 基 于 个 人 压力 差异 的 区 组 划分 是 为 了 从 MSE 项 中 
剔除 这 种 变异 性 而 实施 的 。 但 是 ,， 该 研究 不 是 特别 地 为 检验 管理 员 个 人 压力 差异 而 设计 的 。 
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有 些 统计 分 析 员 计算 = MSBL/MSE， 并 用 该 统计 量 检验 区 组 的 显著 性 。 然 后 他 们 利用 这 一 结果 作为 在 将 来 
的 实验 中 是 否 可 以 要 求 进行 同样 类 型 的 区 组 划分 的 一 个 根据 。 然 而 ， 如 果 管 理 员 个 人 压力 差异 成 为 研究 的 一 个 因 
子 ， 那 么 应 该 使 用 不 同 的 实验 设计 。 有 关 第 二 个 因子 的 结论 ， 不 应 该 作为 实施 区 组 显著 性 检验 的 一 个 依据 。 


注释 和 评论 
因为 有 & 个 区 组 使 得 自由 度 减 少 了 -1， 所 以 随机 化 区 组 设计 的 误差 自由 度 小 于 完全 随机 化 设计 的 误差 自由 
度 5 如 果 几 很 小 ， 因 为 误差 自由 度 的 减少 ， 区 组 的 潜在 影响 可 能 被 掩盖 ; 当 半 很 大 时 ， 这 种 影响 被 最 小 化 了 。 





hy 


方法 ”“ 的 调整 时 间 是 否 存 在 显著 性 差异 。 





22， 若 一 个 随机 化 区 组 设计 包含 5 个 处 理 和 3 个 区 组 ， ”26 学 习 能 力 倾向 测验 (SAT) 包括 三 个 部 分 : 评论 性 
经 计算 ， 得 到 如 下 所 示 的 数据 : SST =430，SSTR = 闻 读 、 数 学 和 写作 。 每 一 部 分 的 满分 为 800 分 。 有 
310，SSBL = 85。 建 立 ANOVA 表 ， 并 在 a =0.05 的 关 2009 版 的 SAT 测试 分 数 的 统计 资料 可 以 从 美国 
显著 性 水 平 下 ， 检 验 是 否 存 在 显著 性 差异 。 大 学 理事 会 的 网 站 (College Board website) 上 得 

应 吕 到 。 由 6 名 学 生 的 SAT 测 诈 分 数组 成 的 样本 数据 

如 下 表 所 示 % 

24. 一 位 汽车 经 销 商 对 调整 一 台 小 型 发 动机 所 需 时 间 PE pp 
(单位 ; 分 ) 进行 了 测试 ， 以 判断 所 需 的 调整 时 间 一 二 一 
是 否 与 使 用 计算 机 控制 的 发 动机 分 析 器 还 是 电子 控 9 534 530 
制 的 发 动机 分 析 器 有 关 。 因 为 小 型 、 中 型 和 大 型 汽 : 二 全 
车 发 动机 的 调整 时 间 是 不 同 的 ， 因 此 我 们 将 三 种 类 了 #6 5 5 
型 的 汽车 作为 实验 的 区 组 。 得 到 的 数据 如 下 表 所 示 。 pn i La 

6 430 458 420 


计算 机 控制 的 电子 控制 的 


a 在 Qa=0,05 的 显著 性 水 平 下 ,6 名 学 生 的 SAT 测 
试 成 绩 存 在 差异 吗 ? 
b. 哪 一 部 分 的 测试 似乎 给 学 生 们 带 来 最 大 忧虑 ? 


在 @=0;05 的 显著 性 水 平 下 ， 检 验 两 种 分 析 器 所 需 请 作出 解构 


13.5 析 因 实验 


迄今 为 止 , 我 们 所 讨论 的 实验 设计 使 我 们 能 够 得 出 有 关 一 个 因子 的 一 些 统计 结论 。 然 而 ,在 有 些 实验 中 ， 
我 们 希望 得 到 有 关 一 个 以 上 变量 或 因子 的 统计 结论 。 析 因 实 验 (factorial experiment) 是 一 种 实验 设计 ， 该 实验 
设计 允许 我 们 同时 得 到 有 关 两 个 或 两 个 以 上 因子 同时 存在 时 的 一 些 统计 结论 。 之 所 以 使 用 术语 “ 析 因 ”是 因 
为 实验 条 件 包 括 了 所 有 可 能 的 因子 组 合 。 例 如 ， 如 果 有 因子 A 的 a 个 水 平 ， 因子 B 的 5 个 水 平 ， 那么 实验 将 涉 
及 收集 名 个 处 理 组 合 的 数据 。 本 节 我 们 将 介绍 两 因子 析 因 实验 的 分 析 。 其 基本 方法 可 以 推广 到 两 个 以 上 因子 
的 析 因 实验 。 

作为 两 因子 析 因 实验 的 一 个 例子 ,我们 将 考虑 与 管理 类 研究 生 入 学 考试 (Graduate Management Admissions 
Test，GMAT) 有 关 的 一 项 研究 。GMAT 是 一 种 商学 院 的 研究 生 院 用 来 评价 攻读 该 领域 研究 生 课程 的 考生 能 力 的 标 
准 化 考试 ， 其 分 数 在 200 ~ 800 之 间 ， 分 数 越 高 表明 能 力 越 强 。 

在 试图 提高 学 生 的 CMAT 的 成 绩 时 ， 著 名 的 得 克 萨 斯 大 学 考虑 提供 下 面 三 种 GMAT 辅导 课程 。 

1. 3 小 时 的 复习 课 ， 内 容 履 盖 了 GMAT 常 考 的 题 型 。 

2. 一 天 的 课程 ， 内 容 覆 盖 了 相关 的 考试 内 容 ， 还 要 进行 一 次 模拟 考试 并 评定 分 数 。 





第 13 章 实验 设计 与 方差 分 析 303 


3. 10 周 的 强化 班 ， 内 容 涉 及 发 现 每 个 考生 的 薄弱 环节 并 设立 个 性 兹 的 提高 课程 。 

因此 ， 这 项 研究 中 的 一 个 因子 就 是 GMAT 辅导 课程 ， 该 课程 有 三 个 处 理 : 3 小 时 的 复习 课 、 一 天 的 课程 和 10 
周 的 强化 班 。 在 选择 采取 哪 种 辅导 课程 之 前 ， 将 进行 进一步 的 研究 以 判断 这 三 种 被 推荐 的 辅导 课程 是 如 何 影响 
GMAT 分 数 的 。 

通常 参加 GMAT 考试 的 学 生来 自 三 种 类 型 的 院 校 ; 商学 院 、 工 学 院 以 及 艺术 与 科学 学 院 。 因 此 ， 在 实验 中 值 
得 关注 的 第 二 个 因子 就 是 学 生 本 科 所 在 的 院 校 是 否 影响 GMAT 分 数 。 本 科 所 在 院 校 这 第 二 个 因子 ， 也 有 三 个 处 
理 ; 商学 院 、 工 学 院 以 及 艺术 与 科学 学 院 。 对 于 这 一 实验 的 析 因 设计 有 三 个 处 理 对 应 于 因子 A 一 一 辅导 课程 ， 有 
三 个 处 理 对 应 于 因子 B 一 一 本 科 所 在 的 院 校 ; 因此 一 共有 3 x3 =9 种 处 理 组 合 。 这 些 处 理 组 合 或 实验 条 件 汇 总 于 


表 13-9 中 。 
假设 ， 对 应 于 表 13-9 所 示 的 9 种 处 理 组 合 的 每 一 个 ， 我 们 都 选取 两 名 学 生 组 成 一 个 样本 : 两 名 商学 院 学 生 参 
加 3 小 时 复习 课 < 田 两 名 参加 一 天 的 课程 ， 还 有 两 表 13-9 ”两 因子 GMAT 实验 的 9 种 处 理 组 合 
名 参加 10 周强 化 班 。 此 外 ， 对 于 每 种 辅导 课程 ， 二 各 
各 有 两 名 工学 院 的 学 生 以 及 艺术 与 科学 学 院 的 学 生 rp 
参加 。 用 实验 设计 的 术语 ， 每 个 处 理 组 合 容量 为 2 3 小 时 复习 课 | 1 2 3 
的 样本 意味 着 我 们 有 两 个 复制 , ( replications) 。 使 用 ”因子 人: 辅导 课程 4 5 6 
更 多 数量 的 复制 和 更 大 容量 的 样本 是 件 很 容易 的 事 7 8 9 


情 , 但 是 ,为 了 说 明 这 二 方法 我们 作出 了 使 本 例 
计算 极 小 化 的 选择 ， 因 此 只 有 两 个 复制 。 i 

这 个 实验 设计 要 求 : 从 每 一 个 本 科 院 校准 备 
商学 院 。 工学 院 。 ,二 不 
读 研 究 生 的 学 生 里 随机 地 抽取 6 名 学 生 。 然 后 ， 科学 学 院 
每 个 本 科 院 校 的 两 名 学 生 应 该 被 随机 地 指派 参加 
每 种 辅导 课程 ， 从 而 一 共有 18 名 学 生 参 加 了 该 项 


因子 A: 辅导 课程 | 1 天 的 课程 
我 们 假定 : 随机 抽取 的 学 生 已 经 上 完 辅导 课程 ， 540 620 480 


表 13-10 两 因子 实验 的 GMAT 分 数 


3 小 时 复习 班 


并 且 也 已 参加 了 GMAT。 他 们 的 得 分 列 于 表 13-10 中 。 10 周强 化 班 | 第 
我 们 对 表 13-10 中 的 数据 进行 方差 分 析 计 算 ， 2 
计算 结果 可 以 给 出 下 面 问题 的 答案 。 
。 主 影响 (因子 A): 辅导 课程 的 不 同 对 GMAT 的 成 绩 有 影响 吗 ? 
。 主 影响 (因子 B) ; 本 科 院 校 的 不 同 对 GMAT 的 成 绩 有 影响 吗 ? 
。 交互 影响 (因子 A 和 B): 一些 本 科 院 校 的 学 生 参 加 某 种 类 型 的 辅导 课程 得 到 较 好 的 GMAT 成 绩 ， 而 另 一 
些 本 科 院 校 的 学 生 参 加 另 一 种 类 型 的 辅导 课程 能 得 到 较 好 的 GMAT 成 绩 吗 ? 
术语 交互 作用 (interaction) 是 指 一 种 新 的 影响 ， 因 为 我 们 应 用 了 煌 因 实 验 ， 所 以 现在 可 以 研究 这 种 新 的 影响 
了 。 如 果 交 互 作 用 的 影响 对 于 GMAT 分 数 有 显著 作用 ， 那 么 我 们 可 以 得 到 结论 : 辅导 课程 类 型 的 影响 取决 于 本 科 
院 校 。 


13. 5. 1 ANOVA 方法 
两 因子 析 因 实验 的 反 NOVA 方法 要 求 我 们 将 总 平方 和 (SST) 分 解 为 四 个 部 分 ; 因子 内 的 平方 和 (SSA) ， 因 
子 B 的 平方 和 (SSB) ,交互 作用 的 平方 和 (SSAB) 和 误差 平方 和 (SSE) 。 分 解 公式 如 下 。 
SST = SSA + SSB + SSAB + SSE (13-26) 


平方 和 与 自由 度 的 分 解 汇总 于 表 13-11 中 ， 表 中 使 用 了 下 面 的 符号 : & 代表 因子 A 的 水 平 数 ; 5 代表 因子 B 的 
水 平 数 ; r+ 代表 复制 的 个 数 ; nj 代表 实验 中 观测 值 的 总 数 ; mr = abr。 
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表 13-11 有 rr 个 复制 的 两 因子 析 因 实验 的 ANOVA 表 


方差 来 源 平方 和 自由 度 均 方 加 pr 值 
因子 A SSA a-1l MSA = 二 > 

因子 B SSB b=l MSB = MSB 

交互 作用 SSAB (a =1) (bel) MSAB Ti Ci MSAB 

误差 SSE abtr -1) ME 

总 计 SST | 


13: 5. 2- -计算 与 结论 

为 了 检验 因子 A、 因 子 B 和 交互 作用 的 显著 性 ， 我 们 需要 计算 下 统 计量 ,为 此 我 们 需要 计算 MSA、MSB、 
MSAB 和 MSE。 为 计算 这 四 个 均 方 ， 我们 必须 首先 计算 SSA、SSB、SSAB 和 SSE， 与 此 同时 ， 我们 还 要 计算 SST。 
为 了 简化 表述 ,我 们 将 计算 分 5 步 进 行 。 除 a、b、r 和 n, 如 前 定义 外 ， 我们 还 使 用 了 下 面 的 符号 。 














x 一 一 对 应 于 因子 A 的 处 理 i 和 因子 B 的 处 理 j 的 第 让 次 复制 的 观测 值 

一 一 处 理 i (因子 全 ) 的 观测 值 的 样本 均值 

x .一 一 处 理 j (因子 B) 的 观测 值 的 样本 均值 

% 一 一 对 应 于 处 理 i (因子 A) 和 处 理 j (因子 B 的 ) 组 合 的 观测 值 的 样本 均值 


% 一 一 所 有 ns 个 观测 值 的 总 样本 均值 
第 1 步 : 计算 总 平方 和 。 





SST = > 二 (x 二) (13-27) 
第 2 步 计算 因子 A 的 平方 和 。 i 
SSA = br > (3 去 (13-28) 
第 3 步 : 计算 因子 B 的 平方 和 。 
SSBE Ss (x 一 元) (13-29) 
第 4 步 : 计算 交互 作用 的 平方 和 。 时 
SSAB = Sy yn 一 Xi Tw + x) (13-30) 
第 5 步 : 计算 误差 平方 和 。 me 
SSE = SST - SSA - SSB - SSAB (13-31) 


表 13-12 列 出 了 实验 所 收集 的 数据 和 有 助 于 我 们 计算 平方 和 的 各 个 合计 。 对 于 GMAT 两 因子 析 因 实验 ， 我们 
利用 式 (13-27) ~ 式 (13-31) ， 计 算 的 平方 和 如 下 所 示 。 

第 上 步 :;'SST ='(500 一 515)? + (580 - $515)” + (540 =- 515) 上 二 (410 -515)’' = 82450 

第 2 步 : SSA = 3 x2%[(493.33 -515)’ +(513.33 -515)” + (538.33 -515)] = 6 100 

第 3 步 :SSB = 3 x2 x[(540 -515)*+ (560— 515)” + (445 - 515) ] = 45 300 

第 由 步 : SSAB = 2 x[ (540 - 493.33 -540 + 515) + (500 ~ 493. 33 = 560 + 515) “+ 

+ (445 - 538.33 - 445 + 515)’] = 11200 
第 5 步 . SSE = 82 450 -6100 -45300 - 11200 = 19 850 
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表 13-12 两 因子 实验 的 GMAT 汇总 数据 

姐 公 了 合 A 
I 商学 院 工学 院 艺术 与 科学 学 院 pe 
500 540 


480 






Al 





3 小 时 复习 课 


1 天 的 课程 


斋 狂 如 者 . .> 路 团 


10 周强 化 班 


列 项 合计 


因子 B 平 均值 


这 些 平方 和 它们 所 对 应 的 自由 度 相 除 ， 得 到 适用 于 检验 两 个 主 影响 (辅导 课程 和 本 科 院 校 ) 和 交互 作用 影响 
的 均 方 值 。 

因为 在 任何 中 型 到 大 型 的 析 因 实验 中 涉及 大 量 的 计算 ， 因 此 在 实施 上 面 方差 分 析 的 计算 和 用 于 假设 检验 推断 
的 Pp- 值 的 计算 时 ,计算机 通常 起 着 重要 的 作用 。 图 13-6 显示 了 GMAT 两 因子 析 因 实验 方差 分 析 的 Minitab 输出 结 
果 。 让 我 们 利用 Minitab 的 输出 结果 ， 在 a=0.05 的 显著 性 水 平 下 ， 对 两 因子 的 GMAT 研究 进行 假设 检验 。 用 于 
检验 三 种 辅导 课程 (因子 A) 之 间 显 著 差 蜡 的 p- 值 是 0.299。 因 为 p- 值 =0.299， 大 于 a=0.05， 所 以 对 于 三 种 辅 
导 课 程 ，GMAT 的 平均 考试 成 绩 不 存在 显著 差 





异 。 但 是 ,对 于 本 科 院 校 的 影响 , p- 信 = | Foctor a 的 
0. 005 ， 小 于 a=0. 05; 于 是 ， 对 于 三 种 类 型 的 = 
本 科 院 校 ，GMAT 的 平均 考试 成 绩 存 在 显著 | Error 19850 
差异 Total | 82450 
最 后 ， 因 为 交互 作用 影响 的 p- 值 =0. 350， 13-6 ”GMAT 两 因子 析 因 实验 设计 的 MINITAB 输出 


大 于 a=0.05， 所 以 不 存在 显著 的 交互 作用 影 
响 。 综 上 所 述 ， 这 项 研究 没有 理由 让 我 们 相信 : 对 于 来 自 不 同 本 科 院 校准 备 参 加 GMAT 考试 的 学 生 ， 三 种 辅导 课 
程 在 提高 他 们 GMAT 的 成 绩 方面 是 不 同 的 。 

我 们 发 现 ， 本 科 院 校 是 一 个 显著 的 因子 。 查 看 表 13-12 中 的 计算 , 我 们 看 到 样本 均值 是 : 商学 院 学 生 <.， = 
540， 工 学 院 学 生 <.。=560， 艺 术 与 科学 学 院 学 生 *.， =445。 我 们 可 以 对 个 别处 理 的 均值 进行 检验 ; 然而， 观测 
三 个 样本 均值 后 ,我 们 可 以 期 望 : 商学 院 和 工学 院 学 生 的 GMAT 分 数 对 辅导 课程 没有 显著 区 别 。 但 是 ， 艺 术 与 科 
学 学 院 学 生 的 GMAT 分 数 看 起 来 要 显著 地 低 于 其 他 院 校 的 学 生 。 也 许 这 种 看 法 会 促使 艺术 与 科学 学 院 类 的 大 学 考 
虑 其 他 的 途径 ， 以 帮助 这 些 学 生 准 备 GMAT。 
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方法 
衣 28. 一 项 涉及 因子 A 的 两 个 水 平 与 因子 B 的 三 个 水 平 
的 析 因 实验 得 到 下 面 的 数据 。 





在 a=0.05 的 显著 性 水 平 下 ， 检 验 主 影响 与 交互 作 
用 影响 的 显著 性 。 

应 用 

30. 一 家 经 营 邮购 商品 广告 目录 的 公司 设计 了 一 个 析 
因 实验 ， 以 检验 在 杂志 上 刊登 广告 的 尺寸 大 小 和 广 
告 的 设计 图 案 ， 对 于 要 求 得 到 邮购 商品 目录 的 数量 
(单位 : 1 000 份 ) 的 影响 。 考 虑 三 种 广告 的 设计 
图 和 案 和 两 种 不 同 的 广告 尺寸 ， 得 到 以 下 数据 。 利 用 
析 因 设计 的 ANOVA 方法 ， 在 a=0.05 的 显著 性 水 
乎 下 ,检验 广 告 的 设计 图 案 、 广 告 的 尺寸 ， 以 及 交 
互 作用 的 显著 性 影响 。 






本 章 我 们 介绍 了 如 何 利 用 方差 分 析 来 检验 若干 个 
总 体 或 处 理 之 间 的 差异 。 我 们 引进 了 完全 随机 化 设计 、 
随机 化 区 组 设计 和 两 因子 析 因 实验 。 我 们 利用 完全 随 
机 化 设计 和 随机 化 区 组 设计 ， 可 以 得 出 有 关 单 个 因子 
均值 之 间 是 否 存 在 差异 的 结论 。 在 随机 化 区 组 设计 中 
划分 区 组 的 主要 目的 是 从 误差 项 中 剔除 来 自 外 部 的 变 
异 。 这 样 的 区 组 划分 给 出 了 真实 误差 方差 一 个 更 好 的 
估计 ， 并 且 给 出 了 确定 该 因子 的 总 体 或 处 理 之 间 的 将 
值 是 否 存 在 显著 差异 的 一 个 更 好 的 检验 。 


| = 
一- 一 一 ae 人 
本 _ 训 村 * 


32、 作 为 Consumer Reports 杂志 设计 研究 的 一 部 分 是 要 
对 混合 动力 汽车 和 具有 同样 配置 的 传统 动力 汽车 
进行 比较 。 于 是 ， 该 杂志 对 各 种 型 号 的 混合 动力 、 
传统 动力 的 汽车 和 SUV 进行 了 测试 。 下 面 是 Con- 
sumer Reports 经 过 测试 取得 的 16 辆 各 种 型 号 汽车 的 
油耗 等 级 (单位; 英里 /加 仓 ) 的 数据 ， 包 括 两 辆 
混合 动力 小 型 汽车 、 两 辆 混合 动力 中 型 汽车 、 两 辆 
混合 动力 小 型 SUV、 两 辆 混合 动力 中 型 SUV; 以 及 
8 辆 具有 同样 配置 的 传统 动力 汽车 (Consumer Re- 
ports，2008 年 10 月) 。 


品牌 /型 号 车 型 ” 动力 类 型 油耗 (英里 /加 仓 ) 
Honda Civic 小 型 车 混合 动力 37 
Honda Civic 小 型 车 ” ”传统 动 办 28 
Toyota Prius 小 型 车 混合 动力 44 
Toyota Corolla 小 型 车 传统 动力 32 
Chevrolet Malibu 中 型 车 混合 动力 27 
Chevrolet Malibu 中 型 车 传统 动力 23 
Nissan Altima 中 型 车 ” “混合 动 内 32. 
Nissan Altima 中 型 车 一 一 传统 动力 25 
Ford Escape 小 型 SUV 混合 动力 27 
Ford Escape 小 型 SUV 传统 动力 2 
Sature Vue 小 型 SUV 混合 动力 28 
Sature Vue 小 型 SUV 传统 动力 22 
Lexus RX 中 型 SUV 混合 动力 23 
Lexus RX 中 型 SUV 传统 动 为 19 
Toyota Highlander ”中 型 SUVY “混合 动力 24 
Toyota Highlander “ 中 型 SUV 传统 动力 18 


在 a=0.05 的 显著 性 水 平 下 ， 检 验 车 型 、 动 力 类 型 
以 及 它们 之 间 交 五 作用 的 显著 性 影响 。 


我 们 已 经 说 明了 ， 在 方差 分 析 和 实验 设计 中 使 
用 的 统计 检验 的 基础 是 建立 总 体 方差 wz 的 两 个 独立 
的 估计 量 。 在 单 因子 情形 ， 一 个 佑 计量 以 处 理 之 间 
的 差异 为 依据 ; 这 丫 估 计量 仅 当 均值 4，jW;，…， 
全 相等 时 ， 给 出 go 的 一 个 无 偏 合计 量 。o” 的 第 
三 个 估计 量 以 每 不 样本 内 部 观测 值 的 差异 为 依据 ; 
这 个 估计 量 总 能 给 出 0 的 一 个 无 偏 估 计量 。 为 了 确 
定 总 体 或 处 理 均 值 相 等 的 原 候 设 是 否 成 立 ， 我 们 通 
过 计算 ogo 的 这 两 个 舍 计 量 的 比值 ( 政 统 计量 )， 建 






立 了 一 个 拒绝 该 厌 假 设 的 规则 。 在 所 有 讨论 过 的 实 

验 设 计 中 ， 我 们 票 按 昭和 不同 的 来 源 对 平方 和 与 自由 

度 进行 分 解 ， 从 而 使 我 们 能 够 计算 出 适用 于 方差 分 
关键 术语 “证 

factor 因子 引起 关注 的 身 变量 的 另 一 个 称谓 。 

treatments ”处理 因子 的 不 同 水 平 。 

single-factor experiment 单 因子 实验 只 涉及 有 天 个 
总 体 或 处 理 的 一 个 因子 的 实验 。 

response variable ”响应 变量 ”引起 关注 的 应 变量 的 为 
一 个 称谓 。 

experimental units ”实验 单元 实验 中 引起 关注 的 研 
究 对 象 。 

completely randomized design” 完全 随机 化 设计 处 
理 被 随机 地 指派 给 实验 单元 的 一 种 实验 设计 。 

ANOVA table ” ANOVA 表 一 种 用 来 汇总 方差 分 析 计 
算 和 结果 的 表 。 它 包括 显示 方差 来 源 、 平 方 各 、 自 
由 度 、 均 方 和 玉 值 的 列 。 

partitioning 分解” 将 总 平方 和 与 自由 度 分 配给 各 组 
成 部 分 的 过 程 。 

multiple comparison procedures 多 重 比 较 方法 能 
用 于 成 对 的 总 体 均值 之 间 进 行 统计 比较 的 统计 方法 。 

comparisonwise Type | error rate 比较 方式 的 第 | 











完全 随机 化 设计 
处 理 j 的 样本 均值 
于 
和 (18-=1) 
2 
处 理 六 的 样本 方差 
> (cx 和 
?= 二 一 一 (13-2) 
上 nm = ] 
总 样本 均值 
i 
起 ee (13-3) 
ny = WR (13-4) 
均 方 处 理 
MSTR = 守 站 (13-7) 
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析 和 检验 的 数值 。 我们 还 说 明了 Fishes 的 -ESD 为 法 
和 Bonferroni 修正 方法 种 何 用 于 成 对 比较 以 判断 在 


_ 竺 se 上 一 TS 
Wy = wl 科 同 
二 全 一 二 J 


类 错误 概率 ”与 单个 两 两 成 对 比较 相 联系 的 犯 第 ] 
类 错误 的 概率 。 

experimentwise Type 1 error rate 实验 方式 的 第 | 类 
错误 概率 ”若干 个 两 两 比较 中 至 少 有 二 个 犯 第 让 类 
错误 的 概率 。 

blocking 区 组 划分 对 所 有 的 处 理 使 用 相同 的 或 相似 
的 实验 单元 的 过 程 。 区 给 划 办 的 目的 是 从 误差 项 中 
删除 来 自 外 部 的 变异 ， 因 此 给 出 了 总 体 或 处 理 均 值 
之 间 是 否 存在 差异 的 更 有 力 的 检验 。 

randomized block design 随机 化 区 组 设计 使 用 区 
组 划分 的 一 种 实验 设计 

factorial experiment 析 因 实验 ”一 种 实验 设计 方法 ， 
该 方法 允许 我 们 得 到 有 关 两 个 或 两 个 以 上 因子 同时 
存在 的 统计 结论 。 

replications 复制 在 一 个 实验 中 每 个 实验 条 件 的 重 
复 次 数 。 

interaction “交互 作用 ” 当 一 个 因子 的 水 平 羽 努 一 个 因 
子 的 水 平 相互 作用 时 ， 对 响应 变量 产生 的 影响 。 


于 SS 






处 理 平方 和 
SS 二 Dn — x) (13-8 ) 
均 方 误差 
MSE = (13-10 ) 
误差 平方 和 
SSE = 2 -1)s (13-11) 
大 个 总 体 均 值 相 等 的 检验 统计 量 
a (13-12) 
MSE 
总 平方 和 
SST = > 一 无) (13-13 ) 
平方 和 分 解 


SST = ,SSTR + SSE (13-14) 
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多 重 比较 方法 
Fisher 的 LSD 方法 的 检验 统计 量 
t = BE (13-16) 
过、 中 
i ; 
Fisher 的 LSD 
ep SF MSE (= + (13-17) 
随机 化 区 组 设计 
总 平方 和 
SST > A -x)” (13-22) 
处 理 平方 种 
SSTR = sy (By (13-23) 
区 组 平方 和 B 
SSBL = Dy (wi 一 到 (13-24) 


上 J 
体 人 练习 


34. 


36. 


在 一 项 完全 随机 化 实验 设计 中 ,检验 三 种 品牌 的 
纸巾 它们 的 吸水 能 力 。 我 们 对 相同 规格 的 纸巾 ， 每 
种 品牌 选取 四 小 块 进行 检验 。 吸 水 性 的 等 级 数 邦 
如 下 表 所 示 。 在 @=0.05 的 显著 性 水 平 下 ， 三 种 品 


牌 纸巾 的 吸水 能 力 存 在 差异 吗 ? 
纸巾 品牌 

x y 7 

91 99 83 

100 96 88 

88 94 89 

89 99 76 


美国 环境 保护 署 对 全 美 各 地 城市 空气 中 的 污染 物 
水 平 进行 监测 。 臭 氧 污 染 水平 使 用 一 个 取 值 范围 为 
0 500 的 指数 度量 ; 指数 分 值 越 低 表明 健康 风险 
越 小 ， 指 数 分 值 越 高 表明 健康 风险 越 大 。 四 个 城市 
( 亚 拉 巴 马 州 伯 明 翰 、 田 纳西 州 孟 菲 斯 市 、 阿 肯 色 
州 小 石城 和 密西西比 州 杰 克 适 ) 2012 年 10 天 的 奥 
氧 污 染 峰 值 水 平 的 数据 如 下 表 所 示 (U.S. EPA 
website，2012 年 3 月 20 日 )。 


亚 拉巴 马 四 纳西 州 ”阿肯色 州 ”密西西比 


有 期。 州 伯明翰 ”和 孟菲斯 市 。 小 石城 。 州 杰克 水 
1 月 9 日 18 20 18 14 
1 月 17 日 23 3] 22 30 


误差 平方 和 
SSE = SST = SSTR = SSBL (13-25) 
析 因 实验 
总 平方 和 
SS 到 > (xo 3) (13-27 ) 
因子 入 的 平方 和 
SSA = 吕 李 (元 . 一 乞 ) (13-28 ) 
因子 了 的 平方 和 
SSB = wr (x — %)” (13-29) 
交互 作用 平方 和 tl 


人 b 
SSAB = 5 之 (x; — i. — x +%)" (13-30) 
se J 


误差 平方 和 





38. 


SSE = SST ~ SSA — SSB ~ SSAB 


(13-31) 





( 续 ) 
日 其 亚 拉巴 马 “田纳西 州 “阿肯色 州 “密西西比 
州 伯 阴 翰 。 孟菲斯 市 。 小 石城 。 州 杰克 偿 
1 月 18 日 19 25 22 21 
1 月 31 目 29 36 28 35 
2 月 1 日 27 31 28 24 
2 月 6 日 26 31 31 25 
2 月 14 日 31 24 19 25 
2 月 17 日 31 31 28 28 
2 月 20 日 33 35 35 34 
2 月 29 日 20 42 42 21 


在 a=0.05 的 显著 性 水 平 下 ， 检验 四 个 城市 之 间 的 
平均 奥 氧 污染 水 平 是 否 存 在 显 着 差异。 

对 一 个 新 产品 提出 三 种 不 同 的 装配 方法 ,选择 使 
用 完全 随机 化 实验 设计 方法 来 确定 哪 一 种 装配 方 
法 能 使 每 小 时 装配 的 产品 数量 最 多 。 随 机 抽取 了 
30 名 工人 ， 并 指定 每 个 人 使 用 三 种 装配 方法 中 的 
一 种 。 每 名 工人 装配 的 产品 数量 如 下 表 所 示 。 


方法 
A B C 
97 93 99 


3 
SAAR 


42. 





示 。 这 些 数据 被 存放 在 本 书 所 附 光 盘 名 为 Medical2 的 文件 中 。 


在 a=0.05 的 显著 性 水 平 下 ， 根 据 这 些 数据 资料 来 
检验 : 是 否 能 够 看 出 每 种 方法 装配 的 产品 平均 件 
数 是 相同 的 。 


. 一 个 研究 机 构 用 油耗 来 检测 三 种 品牌 汽油 的 性 能 


特性 。 因 为 对 于 不 同 品 牌 的 汽车 ， 汽 油 表现 出 的 性 
能 特征 不 同 ， 因 此 我 们 选择 了 五 种 品牌 的 汽车 ， 并 
且 在 实验 中 把 五 种 品牌 的 汽车 看 成 是 区 组 ; 即 每 种 
品牌 的 汽车 都 用 三 种 品牌 的 汽油 进行 测试 。 实 验 结 
果 (单位 : 英里 /加 仑 ) 如 下 表 所 示 。 





a. 在 a=0.05 的 显著 性 水 平 下 ,三 种 品牌 汽油 每 
加 仑 行驶 的 平均 里 程 数 存在 着 差异 显著 吗 ? 

b. 利用 完全 随机 化 设计 的 ANOVA 方法 分 析 实 验 数 
据 。 将 得 到 的 结果 与 (a) 中 得 到 的 结果 进行 比 
较 。 设 法 删除 区 组 影响 的 优点 是 什么 ? 

美国 职业 棒球 大 联盟 的 特许 经 营 权 依赖 于 观看 比 

赛 的 观众 人 数 ， 因 为 门票 收入 占 其 总 收入 的 相当 大 









Wentworth 医疗 中 心 
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份额 ， 并 且 周 未 比赛 是 特别 重要 的 。2011 赛季 的 
前 三 个 月 (4 月 、5 月 和 6 月 ),， 休斯敦 太空 人 队 
与 7 支 球 队 周 未 系列 比赛 的 观众 人 数 如 下 表 所 示 
(ESPN website，2012 年 1 月 12 日 )。 


比赛 对 手 星期 五 星期 六 星期 日 
佛罗里达 马 林 鱼 队 41 042 25 421 22 299 
圣迭戈 教士 队 23 755 28 100 22 899 
密尔沃基 酿酒 人 队 25 734 26 514 23 908 
纽约 大 都 会 队 28 791 31 140 28 406 
亚 利 莱 那 响尾蛇 队 21 834 31 405 21 882 
亚特兰大 勇士 队 29 252 32 117 23 765 
坦 帕 湾 光 芒 队 26 682 27 208 23 965 


在 a=0.05 的 显著 性 水 平 下 ， 检 验 这 三 天 比赛 的 平均 
观众 人 数 是 否 是 相同 的 。 体 斯 敦 太空 人 队 正 在 考虑 ， 
在 赛季 后 半 程 的 每 场 周末 系列 比赛 运作 一 个 特别 的 促 
销 活动 ， 以 增加 观众 人 数 。 上 表 数 据 是 否 表 明 有 茶 一 
天 ， 在 这 天 休斯敦 太空 信 队 应 该 安排 这 些 促销 活动 ? 


. 一 家 制造 公司 设计 了 一 个 析 因 实验 ， 以 确定 由 两 


台 机 寓 生 产 的 有 缺陷 的 零 部 件数 量 是 否 有 差异 ， 
以 及 确定 生产 的 有 缺 陷 的 零 部 件数 量 是 否 还 取决 
于 每 台 机 响 的 原材料 的 投料 方式 ， 是 用 人 工 投 料 ， 
还 是 用 自动 系统 投料 。 生 产 的 有 缺陷 的 零 部 和 件 履 
量 的 统计 资料 如 下 表 所 示 。 在 wa=0.05 的 显著 性 水 
平 下 ;检验 机 嚣 、 投 料 系 统 以 及 它们 之 间 交 互 作用 
的 显著 影响 。 


投料 系统 
30 30 
1 
本 本 34 26 
20 24 
, 祷 2 
全 汪 22 28 
i 出 i ns ia te | 


作为 对 65 岁 和 65 岁 以 上 的 老人 长 期 研究 的 一 部 分 ,位 于 纽约 州 北部 地 区 的 Wentworth 医疗 中 心 的 社会 学 家 
和 内 科 医 生 调查 了 地 理 位 置 和 抑郁 症 之 间 的 关系 。 抽 取出 60 名 健康 状况 不 错 的 人 组 成 一 个 随机 样本 ， 其 中 20 人 
居住 在 佛罗里达 州 ， 20 人 居住 在 纽约 州 ，20 人 居住 在 北 卡 罗 来 纳 州 。 对 随机 选中 的 每 个 人 进行 了 一 次 测量 抑 者 
症 的 标准 化 检验 ， 收 集 到 的 数据 如 下 表 所 示 ; 较 高 的 检验 分 数 表 示 有 和 较 高 程度 的 抑郁 症 。 这 些 数据 被 存放 在 本 书 
所 附 光 盘 名 为 Medicall 的 文件 中 。 
研究 的 第 二 部 分 是 考察 地 理 位 置 与 患 有 慢性 病 的 65 岁 和 65 岁 以 上 的 老人 得 抑郁 症 之 间 的 关系 ， 这 些 慢性 病 
诸如 关节 炎 、 高 血压 和 心脏 病 等 。 具 有 这 种 身体 状况 的 老人 也 被 抽取 出 60 人 组 成 一 个 随机 样本 ,同样 20 人 居住 
在 佛罗里达 州 ，20 人 居住 在 纽约 州 ，20 人 居住 在 北 卡罗来纳 州 。 这 项 研究 所 记录 的 抑郁 症 程 度 的 数据 如 下 表 所 
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Medical1 的 数据 
佛罗里达 州 纽约 州 
3 8 
7 11 
7 9 
3 7 
8 8 
8 7 
8 8 
5 4 
5 13 
2 10 
6 6 
2 8 
6 12 
6 8 
9 6 
7 8 
5 5 
1 7 
7 7 
3 8 
管理 报告 


北 卡 罗 来 纳 州 


佛罗里达 州 


北 卡罗来纳 州 


10 


1. 利用 描述 统计 学 方法 汇总 这 两 部 分 研究 的 数据 。 关 于 抑 帮 症 的 得 分 ,你 的 初步 观测 结果 是 什么 ? 
2. 对 于 两 个 数据 集 使 用 方差 分 析 方法 ， 在 每 种 情况 下 陈述 需要 进行 检验 的 假设 ,你 的 结论 是 什么 ? 


3. 在 适当 的 地 方 使 用 单个 处 理 方法 的 统计 推断 。 你 的 结论 是 什么 ? 





A 和 站 中 加 而 机 
钳 售 八 见 时报 即 


冀 名 为 SalesSalary 的 文件 中 。 
观测 值 年 薪 (美元 ) 
1 53 938 
52 694 
3 70 515 
4 ® 32031 
3 62 283 
6 $7718 
J 79 081 
8 48 621 
9 72 835 


了 高 于 京 守 二 高 二 卫 加 


54 768 


58 080 
78 702 
83 131 
57 788 
53 070 
60 259 





年 薪 〈 美 元 ) 


销售 场所 


室内 


假 谈 大 旧金山 地 区 一 个 销售 专业 人 员 的 地 方 分 会 对 该 组 织 的 成 员 进 行 了 一 项 调查 ， 其 目的 是 : 对 于 受 雇 的 销 
售 人 员 ， 无 论 销 售 场所 是 在 室内 还 是 在 户外 局 如 果 他 们 的 资历 己 年 薪 之 问 存在 某 种 关系 的 话 ， 则 对 这 种 关系 进行 
研究 5 在 调查 中 ;7 受 访 者 被 要 求 在 三 种 资历 水 平 中 指定 其 中 的 一 种 : 低 (1~10 年 )， 中 (11~20 年 ) 和 高 (21 
或 21 年 以 上 )。 调 查 所 得 数据 的 一 部 分 如 下 所 示 。 完 整 的 数据 集 由 120 组 观测 值 组 成 ， 它 们 被 存放 在 本 书 所 附 光 


工作 资历 


号 


如 于 下 咎 了 妊 可 … 
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1. 用 描述 统计 学 汇总 这 些 数据 。 

2. 不 考虑 销售 人 员 的 工作 资历 和 工作 场所 ， 建 立 一 个 95% 的 全 体 销 售 人 员 平 均 年 薪 的 置信 区 间 估 计 。 

3. 建立 一 个 95% 的 室内 销售 人 员 平均 年 薪 的 置信 区 间 估 计 。 

4. 建立 一 个 95% 的 户外 销售 人 员 平 均 年 薪 的 置信 区 间 估 计 。 

5. 在 a=0.05 的 显著 性 水 平 下 ， 并 且 暂 时 不 考虑 销售 人 员工 作 资历 的 影响 ， 利 用 方差 分 析 方 法 ， 检 验 销售 人 
员工 作 场 所 的 显著 差异 。 

6. 在 a=0.05 的 显著 性 水 平 下 ， 并 且 暂 时 不 考虑 销售 人 员工 作 场 所 的 影响 ， 利 用 方差 分 析 方 法 ， 检 验 销售 人 
员工 作 资 历 的 显著 差异 。 

7. 在 a=0.05 的 显著 性 水 平 下 ， 检 验 销售 人 员 的 工作 场所 、 工 作 资 历 和 交互 作用 的 显著 差异 。 























实践 中 的 统计 : 联盟 数据 系统 (ALLIANCE DATA SYSTEMS) 
14.1 简单 线性 回归 模型 

14.2 最 小 二 乘法 

14.3 判定 系数 

14.4 模型 的 假定 

14.5 显著 性 检验 

14.6 应 用 估计 的 回归 方程 进行 估计 和 和 预测 






















14.7 计算 机 解法 : 
14.8 残 差 分 析 : 证 实 模 型 假定 
: 14.9 残 差分 析 : 异常 值 各 有 影响 的 观测 值 
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实践 中 的 统计 
联盟 数据 系统 (ALLIANCE DATA SYSTEMS) 呈 
得 克 萨 斯 州 ， 达 拉 其 


在 飞速 发 展 的 客户 关系 管理 行业 中 ， 联盟 数 据 系 
统 (ADS) 可 为 顾客 提供 交易 代理 、 信 贫 服 务 和 营销 
服务 等 一 系列 服务 。ADS 的 顾客 群集 中 在 零售 业 、 加 
油 站 /便利 店 、 公 用 事业 和 交通 运输 业 四 大 行业 。 
1983 年 ，Alliance 开始 为 旗下 的 零售 业务 、 加 油 站 和 
餐饮 业 提供 不 间断 的 信贷 业务 服务 ; 今天 ， 该 公司 大 
约 有 6500 多 名 员工 为 世界 谷地 的 顾客 提供 这 些 服 
务 。ADS 仅 在 美国 就 有 140 000 人 台 零 售 点 终端 机 ， 每 
年 处 理 超 过 25 亿 宗 交易 业务 。ADS 代理 了 49 种 贴 有 
零售 商标 签 的 服务 计划 ， 差 不 多 有 7200 万 消费 者 持 
有 参加 这 些 计 划 的 优待 卡 ， 这 使 得 该 公司 在 全 美 贴 有 
零售 商标 签 的 信用 服务 行业 中 排名 次 席 。 基 于 良好 的 
业绩 ，2001 年 ，ADS 首次 公开 发 行 股票 并 在 纽约 证 
券 交 易 所 成 功 上 市 。 

作为 营销 服务 的 手段 之 一 ，ADS 设计 了 直接 向 顾 
客 邮寄 宣传 品 的 促销 活动 。 由 于 它 的 数据 库 储 存 了 1 
亿 多 名 顾客 消费 习惯 的 信息 ， 所 以 ADS 把 那些 最 有 可 
能 的 顾客 作为 促销 目标 ， 通 过 直接 向 他 们 邮寄 宣传 品 
达到 获得 收益 的 目的 。 公 司 的 分 析 发 展 部 门 运用 回归 分 
析 方 法 ， 建立 能 度量 并 预测 顾客 对 促销 活动 反应 的 模 
型 。 一 些 回归 模型 预测 了 顾客 收 到 促销 宣传 品 后 购买 商 
品 的 概率 ， 田 一 些 回归 模型 则 预测 了 这 些 顾 客 购买 商品 
所 花费 的 金额 。 

在 某 一 项 特定 的 促销 活动 中 ， 零 售 连锁 店 的 目 
标 是 吸引 新 顾客 。 为 了 预测 此 项 促销 活动 的 效果 ， 


ADS 的 分 析 师 们 从 顾客 信息 数据 库 中 选取 了 一 个 样 
本 ， 癌 样本 中 的 每 一 位 顾客 发 放 了 促销 宣传 材料 ， 
然后 将 样本 顾客 对 此 项 活动 反馈 的 数据 收集 起 来 并 
加 以 处 理 。 样 本 数据 趟 但 包括 顾客 由 于 促销 活动 而 
购买 商品 的 金额， 而 且 还 包括 了 各 种 各 样 的 、 有 助 
于 预测 销售 额 的 顾客 特定 变量 。 闫 客 特 定 变量 是 指 
顾客 在 过 去 39 个 月 里 从 相关 商店 中 肉 购 商品 的 总 
金额 ， 该 变量 对 预测 顾客 购买 商品 的 金额 将 会 起 到 
很 大 的 作用 。ADS 芍 分 析 病 们 建立 了 购买 商品 的 总 
金额 与 过 去 从 相关 商店 中 内 购 商 品 的 金额 之 间 关 系 
的 估计 的 回归 方程 ; 
fF = 26.7 + 0.002 05x 

式 中 ， 7 代表 购买 商品 的 总 金额 ; x 代表 过 去 从 相 
关 商 店 中 内 购 商品 的 金额 。 

利用 这 一 方程 ， 我 们 能 够 预测 出 : 一 位 在 过 去 39 
个 月 里 从 相关 商店 中 内 购 了 10 000 美元 的 顾客 ， 对 于 
直接 向 他 们 邮寄 宣传 品 的 反应 将 是 消费 47.20 美元 。 
在 本 章 中 ， 你 将 学 会 如 何 建 立 这 种 类 型 的 估计 的 回归 
方程 。 

为 了 提高 前 述 方 程 的 预测 能 力 ，ADS 的 分 析 师 建 
立 的 最 终 模型 还 包含 了 一 些 其 他 变量 。 比 如 ， 是 否 拥 
有 一 家 银行 的 信用 卡 、 估 计 的 收入 水 平 以 及 每 次 光顾 
被 挑选 出 来 的 商店 的 平均 消费 额度 。 在 下 一 章 里 ， 我 
们 将 学 习 如 何 把 这 些 额 外 的 变量 整合 到 多 元 回归 模 
型 中 。 


管理 决策 ， 经 常 取决 于 对 两 个 或 多 个 变量 之 间 关 系 的 分 析 。 例 如 ， 一 位 市 场 销售 经 理 权衡 了 广告 费用 和 销售 
收入 之 间 的 关系 后 ， 才 可 能 尝试 去 预测 一 个 给 定 水 平 的 广告 费用 ， 能 市 来 多 少 销售 收入 。 又 如 ,一 家 公用 事业 公 
司 可 以 利用 白天 最 高 气温 与 电力 需求 之 间 的 关系 ,根据 下 个 月 白天 最 高 气温 的 预报 ， 来 预测 下 个 月 的 用 电量 。 通 
常 ， 一 位 管理 人 员 要 依靠 直觉 来 判断 两 个 变量 的 关系 。 但 是 ， 如 果 能 取得 数据 ， 我 们 就 能 利用 统计 方法 来 建立 一 
个 表示 变量 之 间 相 互 关系 的 方程 ， 我 们 将 这 一 统计 方法 称 为 回归 分 析 。 

在 回归 术语 中 ， 我 们 把 被 预测 的 变量 称 为 应 变量 ( dependent variable) ， 把 用 来 预测 应 变量 值 的 一 个 或 多 个 变 
量 称 为 自 变量 (independent variable) 。 例 如 ， 在 分 析 广 告 费用 对 销售 收入 的 影响 时 ， 市 场 销售 经 理想 要 预测 销售 
收入 的 愿望 使 我 们 想到 ， 应 该 用 销售 收入 作为 应 变量 ， 而 用 来 帮助 预测 销售 收入 的 广告 费用 应 作为 自 变量 。 在 统 


加 ”作者 感谢 联盟 数据 系统 分 析 发 展 部 主任 非 利 普 “ 克 莱 曼 斯 先生 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
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计 符 号 上 ;~y 代 表 应 变量 ; x 代表 自 变量 : 

在 本 章 中 ， 我们 仅仅 讨论 最 简单 类 型 的 回归 分 析 它 只 包括 一 个 自 变量 和 一 个 应 变量 ,二 者 之 间 的 关 
系 可 以 用 一 条 直线 近似 表示 。 这 种 回归 分 析 被 称 为 简单 线性 回归 (simple linear regression ) 。 包 括 两 个 或 两 
个 以 上 自 变 量 的 回归 分 析 被 称 为 多 元 回归 分 析 ; 多 元 回归 和 涉及 曲线 关系 的 情形 ,将 在 第 15 章 和 第 16 章 
中 介绍 。 


14. 1 简单 线性 回归 模型 


Armand 比萨 饼 连 锁 店 是 经 营 意 大 利 食 品 的 餐馆 ， 它 们 分 布 在 美国 5 个 州 的 范围 内 。Armand 比萨 饼 连 锁 店 的 
最 佳 位 置 是 在 大 学 校园 附近 。 管 理 人 员 确 信 ， 这 些 连 锁 店 的 季度 销售 收入 (用 y 表示 ) 与 学 生 人 数 (用 x 表示 ) 
是 正 相 关 的 。 也 就 是 说 ， 学 生 较 多 的 校园 附近 的 连锁 店 比 学 生 较 少 的 校园 附近 的 连锁 店 ， 有 获得 较 大 的 季度 销售 
收入 的 倾向 。 利 用 回归 分 析 ， 我 们 能 求 出 一 个 说 明 应 变量 y 是 如 何 依赖 自 变量 x 的 方程 。 

在 Armiand 比萨 饼 连 锁 店 的 例子 中 ， 总 体 是 由 所 有 的 Armand 比萨 饼 连 锁 店 组 成 的 。 对 于 总 体 中 的 每 一 个 连锁 
店 ,都 有 一 个 x* 值 (学 生 人 数 ) 和 一 个 对 应 的 y 值 (季度 销售 收入 )。 描 述 7 如 何 依赖 于 x 和 误差 项 的 方程 称 为 
回归 模型 (regression model)。 下 面 是 用 于 简单 线性 回归 的 回归 模型 。 


Cp 






1 和 4 wy 和 Pra g 
上 本 






MN, 





式 中 ，B, 和 局 称 为 模型 的 参数 ; z 是 一 个 随机 变量 ， 称 为 模型 的 误差 项 。 误 差 项 说 明了 包含 在 y 里 面 但 不 能 
被 * 和 y 之 间 的 线性 关系 解释 的 变异 性 。 

Armand 比萨 饼 连 锁 店 总 体 还 可 以 视 为 由 若干 个 子 总 体 组 成 的 集合 ， 每 一 个 子 总 体 都 对 应 一 个 不 同 的 x 的 值 。 
例如 ， 一 个 子 总 体 是 由 有 8 000 名 学 生 的 校园 附近 的 所 有 Armand 比萨 饼 连锁 店 组 成 的 ;， 另 一 个 子 总 体 是 由 有 9 000 
名 学 生 的 校园 附近 的 所 有 Armand 比萨 饼 连 锁 店 组 成 的 ， 等 等 。 每 一 个 子 总 体 都 对 应 一 个 y 值 的 分 布 。 于 是 ， 位 
于 有 8 000 名 学 生 的 校园 附近 的 连锁 店 对 应 一 个 y 值 的 分 布 ， 位 于 有 9 000 名 学 生 的 校园 附近 的 连锁 店 对 应 另 一 个 
y 值 的 分 布 ， 等 等 。y 值 的 每 一 个 分 布 都 有 它 自 己 的 平均 值 或 期 望 值 。 描 述 y 的 期 望 值 B(y) 如 何 依赖 于 * 的 方程 
称 为 回归 方程 (regression equation) 。 对 于 简单 线性 回归 情形 ， 回 归 方 程 如 下 。 


ee— CC : 












简单 线性 回归 方程 的 图 形 是 一 条 直线 ;ps 是 回归 直线 的 7 轴 截 矩 ，B, 是 和 斜率， 对 于 一 个 给 定 的 x 值 , E(y) 
是 Y 的 平均 值 或 期 望 值 。 

对 于 简单 线性 回归 方程 ， 它 所 代表 的 各 种 可 能 的 回归 线 的 实例 如 图 14-1 所 示 。 图 14-1a 中 的 回归 线 表示 7 的 
平均 值 与 x 下 相关 , 较 大 的 * 值 ， 对 应 的 EB(y) 的 值 也 较 大 。 图 14-1b 中 的 回归 线 表示 y 的 平均 值 与 x 负 相 关 ， 较 
大 的 x* 值 ， 对 应 的 E(y) 的 值 则 较 小 。 图 14-1c 中 的 回归 线 表示 y 的 平均 值 与 x 无 关 ， 即 对 于 x 的 每 一 个 值 ，y 的 
平均 值 (y) 都 是 相同 的 。 





日 、 最 先 应 用 统计 方法 来 研究 两 个 变量 之 间 关 系 的 是 弗朗西斯 . 高 尔 顿 ( Francis Gakon，1822 一 1911 ) 。 他 对 父子 身高 之 间 的 关系 很 感 
兴趣 ， 并 致力 于 此 方面 的 研究 。 高 尔 顿 的 追随 者 ， 卡 尔 ， 皮尔 撑 ( Kanl Pearson，1857 一 1936) 则 通过 1 078 对 受 试 者 ， 分 析 了 父子 
身高 之 间 的 关系 。 
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El(y) Ety) Ely) 
帘 距 
回归 直线 W 
斜率 8 是 负 的 癌 本 
斜率 5 是 正 的 回归 直线 
回归 直线 
了 站 和 
a) 正 线 性 关系 b) 负 线 性 关系 c) 无 关系 


图 14-1 在 简单 线性 回归 中 的 各 种 可 能 的 回归 线 


14. 1.2 估计 的 回归 方程 

如 果 总 体 参 数 B 和 局 的 值 是 已 知 的， 那么 对 于 一 个 给 定 的 x 值 ， 我 们 能 利用 式 (14-2) 计算 y 的 平均 值 。 
遗憾 的 是 ， 在 实际 中 参数 6, 各 的 值 常常 是 未 知 的 ， 我 们 必须 利用 样本 数据 去 估计 它们 。 我 们 计算 样 示 统计 量 
5 和 b, 作为 总 体 参数 B, 和 及 的 个 计 量 。 用 样本 统计 量 司 和 旋 替代 回归 方程 中 的 未 知 参数 B 和 B, ， 我 们 得 到 了 








图 14-2 给 出 了 简单 线性 回归 估计 步骤 的 一 个 概要 。S 

估计 的 简单 线性 回归 方程 的 图 形 ， 被 称 作 估计 的 回归 线 ; b。 
是 y 轴 截 距 ，b, 是 斜率 。 在 下 一 节 ， 我 们 将 说 明 如 何 利用 最 小 二 / 回归 模型 y= 
乘法 计算 估计 的 回归 方程 中 的 2 和 4b, 的 值 。 用 

通常 ， 对 于 x 的 一 个 给 定 值 ，? 是 y 的 平均 值 E(y) 的 一 个 人、 
点 估计 。 于 是 ， 为 了 估计 位 于 有 10 000 名 学 生 的 校园 附近 的 所 有 
Armand 比萨 饼 连锁 店 季度 销售 收入 的 平均 值 或 期 望 值 ， 我 们 只 
需要 将 10 000 代入 式 (14-3) 中 的 x 即 可 。 但是, 在 某 些 情形 
下 ，Armand 比萨 饼 连锁 店 的 管理 人 员 可 能 对 预测 某 一 家 特定 的 
连锁 店 的 销售 收入 更 感 兴趣 。 例 如 ， 假 定 Armand 比 萨 鲜 连锁 店 的 | 
管理 人 员 希 望 预 测 位 于 有 10 000 名 学 生 的 Talbot 大 学 附近 的 一 家 
连锁 店 的 季度 销售 收入 。 后 面 我 们 将 会 证 明 ， 对 于 % 的 一 个 给 定 
值 , y 的 最 优 估计 仍然 由 ?给 出 。 于 是 ， 为 了 预测 位 于 Talbot 大 学 
附近 的 这 家 比萨 饼 连 锁 店 的 季度 销售 收入 ，Armand 比萨 饼 连 锁 
店 的 管理 人 员 仍 然 需要 将 10 000 代 入 式 (14-3) 中 的 x。” 


注释 和 评论 
1. 我 们 不 能 把 回归 分 析 看 作 在 变量 之 间 建 立 一 个 因果 关系 的 过 程 。 回 归 分 析 只 能 表明 ， 变量 是 如 何 或 者 是 以 
怎样 的 程度 彼此 联系 在 一 起 的 。 变 量 之 闻 有 关 因 果 关 系 和 相互 影响 的 任何 结论 ， 必 须 建立 在 人 们 在 应 用 时 





图 14-2 简单 线性 回归 的 估计 步骤 


昌 Bo 和 Bi 的 估计 是 一 个 统计 过 程 ， 这 个 过 程 与 在 第 7 章 中 讨论 过 的 j 的 估计 非常 相似 。pBo 和 Bi 是 我 们 感 兴趣 的 未 知 参数 ， 如 和 
是 用 于 估计 未 知 参数 的 样本 统计 量 。 
昌 对 于 x 的 一 个 给 定 值 , ?给 出 了 两 个 值 : 一 个 是 y 的 平均 值 (y) 的 一 个 点 合计 ; 一 个 是 y 的 一 个 个 别 值 的 预测 值 。 
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对 大 量 信 息 判 断 的 基础 上 。 
2. 对 于 简单 线性 回归 情形 ， 回 归 方 程 是 E(y) =B +Bix。 在 更 高 级 的 回归 分 析 教 科 书 中 ， 通 常 把 回归 方程 写 
成 E(y |x) =B,+Bix， 这 种 写法 强调 了 对 于 x 的 一 个 给 定 值 ， 回 归 方 程 给 出 的 是 y 的 平均 值 。 


14.2 最 小 二 乘法 


最 小 二 乘法 (least squares method) “是 利用 样本 数据 建立 估计 的 回归 方程 的 一 种 方法 。 为 了 说 明 最 小 二 乘 
法 ,假定 由 位 于 大 学 校园 附近 的 10 家 Armamad 比萨 饼 连 锁 店 组 成 了 一 个 样本 ， 并 对 这 个 样本 采集 有 关 数 据 。 对 
于 样本 中 的 第 i 个 观测 值 或 第 i 家 连锁 店 ，x, 表 示 学 生 人 数 (单位 : 1000 人 ) ,yy 表示 季度 销售 收入 (单位 ; 
1 000 美 元 ) 。 样 本 中 10 家 Armand 比萨 饼 连 锁 店 的 x; 和 7 的 数值 如 表 14-1 所 示 。 我 们 看 到 ， 对 于 第 1 家 连锁 
店 ，x, =2，y1 =58， 表 示 这 家 连锁 店 位 于 有 2000 名 学 生 的 校园 附近 ， 它 的 季度 销售 收入 为 58 000 美元 。 对 于 
第 2 家 连锁 店 ，x, =6，y, = 105,， 表示 这 家 连锁 店 位 于 有 6 000 名 学 生 的 校园 附近 ; 它 的 季度 销售 收入 为 
105 000 美 元 。 销 售 收入 最 多 的 连锁 店 是 第 10 家 连锁 店 ， 它 位 于 有 26 000 名 学 生 的 校园 附近 ， 季 度 销售 收入 为 
202 000 美元 。 


表 14-1 10 家 Armand 比萨 饼 连锁 店 的 学 生 人 数 和 季度 销售 收入 数据 
连锁 店 学 生 人 数 (1000 入 ) 销售 收入 (1 000 美元 ) 连锁 店 学 生 人 数 (1000 人 ) 销售 收入 《1000 美元 ) 
i Xi Yi i Xi yi 
2 58 6 16 137 
6 105 yy 20 157 
88 8 20 169 
8 118 日 22 149 
12 117 10 26 202 


nn 
oo 


图 14-3 是 表 14-1 中 数据 的 散 点 图 。 模 轴 表 示 学 生 人 数 ， 纵 轴 表 y 
示 季 度 销售 收入 。 根 据 横 轴 上 自 变量 * 的 值 和 纵 轴 上 应 变量 y 的 值 ， 220 
就 可 以 作出 回归 分 析 的 散 点 图 (scatter diagram) 。 散 点 图 使 我 们 能 从 ”人 1g0 
图 形 上 观察 数据 ， 并 且 能 对 变量 问 可 能 存在 的 关系 得 出 初步 的 结论 。 

从 图 14-3 我 们 能 得 出 一 些 什么 样 的 初步 结论 呢 ? 位 于 学 生 人 1% 
数 比较 多 的 校园 附近 的 Armand 比萨 饼 连 锁 店 ， 销 售 收入 似乎 也 比 ” 人 & 00 
较 高 。 另 外 ， 从 这 些 数据 中 可 以 发 现 ， 学 生 人 数 和 销售 收入 之 间 的 嗓 8 
关系 似乎 能 用 一 条 直线 近似 地 表示 。 实 际 上 , 在 x* 和 y 之 间 存 在 一 党 
个 正 向 的 线性 关系 ， 因 此 我 们 选择 用 简单 线性 回归 模型 来 表示 季度 
销售 收 大 与 学 生 人 数 之 间 的 关系 。 在 这 一 选择 的 假定 下 ， 我 们 接 下 





02 4 6 8 10121416 18'20 222426 


来 的 任务 是 利用 表 14-1 中 的 样本 数据 ， 去 确定 估计 的 简单 线性 回 学 生 人 数 〈1 000 人 ) 
归 方程 中 的 如 和 bb 的 值 。 对 于 第 i 家 Armand 比萨 饼 连 锁 店 ， 估 计 图 14-3 Armand 比萨 饼 连 锁 店 的 学 生 人 数 
的 简单 线性 回归 方程 是 和 季度 销售 收入 的 散 点 图 

7 = bo + bi%, (14-4) 


式 中 ,7 代表 第 i 家 连锁 店 季 度 销售 收入 的 估计 值 (1 000 美元 ) ; b 代表 估计 的 回归 直线 的 y 轴 截 距 ; b, 代 
表 估 计 的 回归 直线 的 斜率 ; x, 代表 第 i 家 连锁 店 的 学 生 人 数 (1 000 人 ) 。 

用 7 表示 第 i 家 连锁 店 季 度 销 售 收入 的 观测 (实际 ) 值 ， 式 (14-4) 中 六 表示 第 i 家 连锁 店 季度 销售 收入 的 
预测 值 ， 样 本 中 的 每 一 家 连锁 店 都 将 有 的 一 个 季度 销售 收入 的 观测 值 y; 和 一 个 季度 销售 收入 的 预测 值 Y;。 为 了 使 


加 ”在 简单 线性 回归 中 ,每 一 对 观测 值 由 两 个 值 组 成 ， 一 个 是 自 变量 的 观测 值 ， 一 个 是 应 变量 的 观测 值 。 
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估计 的 回归 直线 能 对 样本 数据 有 一 个 好 的 拟 合 ， 红 们 首相 第 说 精 稳 届 从 的 深 测 但 与 和 庆 移入 收 赤 的 预测 种 咱 间 的 
差 要 小 。 
最 小 二 乘法 是 利用 样本 数据 ， 通 过 使 





应 变量 的 观测 值 y; 与 应 变量 的 预测 值 之 间 的 离 差 平 方 和 达到 最 小 的 


方法 求 得 如 和 上 的 值 。 最 小 二 乘法 准则 由 式 (14- 5) 给 出， 





微分 学 可 以 证 明 ( 见 附录 ed Wx a 5) Ey 条 的 人 信和 (40) 和 式 (4D 求 得 。 





在 Armand 比萨 饼 连 锁 店 的 例子 中 ， 应 用 最 小 二 乘法 估计 回归 方程 的 一 些 必要 的 计算 在 表 14-2 中 列 出 。 由 
于 样本 是 由 10 家 Armand 比萨 饼 连 锁 店 组 成 ， 所 以 我 们 有 观测 次 数 n = 10。 因 为 式 (14-6) 和 式 (14-7) 需要 z> 
和 7 泡 本 天 和 7 开始 。 





连锁 店 1 pe 二 i 多 Xi ~x yy- (x) (yi-D) (入 = 如 
Ek J 58 -和 -区 864 144 
2 ny 105 -8 一 25 200 64 
3 8 88 -6 -42 252 36 
4 8 118 -6 -12 42 36 
和 | by/ LT7 一 2 二 13 26 4 
6 16 137 2 六 14 4 
7 20 157 6 27 162 36 
8 20 169 6 39 234 36 
9 225 149 8 19 152 64 

26 02 
40 





德国 数学 家 高 斯 提出 了 最 小 二 乘法 。 


ED 


Xi = (TxEy) A/n 


bi = 
mtg 0 时 ， 通 党 推荐 用 公式 (14.6)- 


多 地 保留 有 效 数 字 。 我 们 建议 ， 至 少 应 保留 四 位 有 效 数字 。 
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利用 式 〈14-6) 和 式 (14-7)， 以 及 表 14-2 中 的 资料 ， 我 们 能 计算 Armand 比萨 饼 连 锁 店 的 估计 的 回归 方程 的 
斜率 和 y 轴 截 距 。 斜 率 b, 的 计算 过 程 如 下 


1 E(w- (Y=) 


Br _ 2.840 


Es, = SOR ,FI 
y 轴 截 距 bo 的 计算 如 下 
b, =F-bx=130-5x14=60 


于 是 ,估计 的 回归 方程 是 


y = 60 + 5x 

这 一 方程 在 散 点 图 上 的 图 形 ， 如 图 14-4 所 示 。 佑 y 
计 的 回归 方程 的 斜率 (5, =5) 是 正 的 ， 也 就 是 说 ， 随 i 
着 学 生 人 数 的 增加 ，Armand 比萨 饼 连 锁 店 的 季度 销售 200 
收入 也 增加 。 实 际 上 ， 我 们 可 以 得 出 结论 ， 学 生 人 数 人 蕊 180 
每 增加 1 000 人 ，Armand 比萨 饼 连锁 店 期 望 增加 的 季 号 160 
度 销售 收入 将 是 5 000 美元 ; 即 每 增加 1 名 学 生 , 期 望 ”了 140 
增加 销售 收入 5 美元 (因为 销售 收入 的 计量 单位 是 。 外 !2o[ 
1 000 美 元 ， 学 生 人 数 的 计量 单位 是 1000 人 ) 。 素 

如 果 我 们 相信 ， 应 用 最 小 二 乘法 得 到 的 估计 的 。 党 
回归 方程 能 充分 地 描述 两 个 变量 * 和 > 之 间 的 关系 ， jp 40 
那么 对 于 一 个 已 知 的 x 值 ， 利 用 估计 的 回归 方程 去 5=60 20 





预测 y 的 值 将 被 认为 是 合理 的 。 例 如 ， 有 一 家 连锁 


oo 2 4..6.8 .10 ,12,14 16 18 20 22 24 26 


店 ， 它 位 于 有 16 000 和 名 学 生 的 校园 附近 ， 如 果 我 们 学 生 人 数 (1 000 人 ) 
想 要 预测 这 家 连锁 店 的 季度 销售 收入 ， 那 么 我 们 应 14-4 ”Armand 比萨 饼 连 锁 店 估计 的 回归 
当 计 算 方程 : =60 +5x 的 图 示 


y =60+5.x16 = 140 
所 以 ， 对 于 这 家 Armand 比 陕 饼 连 锁 店 ,我们 预测 的 季度 销售 收入 是 140 000 美元 。 在 下 一 节 ， 我 们 将 讨论 利用 估 
计 的 回归 方程 进行 估计 和 预测 合理 性 的 评价 方法 。” 


最 小 二 乘法 通过 使 应 变量 的 观测 值 y; 与 应 变量 的 预测 值 久 之 间 的 离 差 平方 和 达到 最 小 ， 得 到 了 估计 的 回归 方 


程 。 最 小 二 乘法 准则 就 是 选择 能 与 样本 数据 有 最 佳 拟 合 方 程 的 准则 。 如 果 利 用 某 些 其 他 准则 ， 人 鲍 如 最 小 化 Yi 和 7 
之 间 的 绝对 离 差 的 和 ， 我 们 将 得 到 一 个 不 同 的 方程 。 在 实践 中 ， 最 小 二 乘法 是 应 用 最 广泛 的 方法 。 






方法 显示 出 什么 关系 ? 


2. 已 知 两 变量 x 和 Y 的 5 组 观测 值 。 c 尝试 着 务 一 条 穿 过 这 些 数据 的 直线 ， 来 近似 x 和 
| y 之 间 的 关系 。 
W003 d. 利用 式 (14-6) 和 式 (14-7)， 计算 刀 和 6 的 值 ， 
建立 估计 的 回归 方程 。 


a. 绘制 出 这 些 数 据 的 散 点 图 。 
b. 根据 在 (a) 中 作出 的 散 点 图 ， 这 两 个 变量 之 间 e. 当 x%=10 时 ， 利 用 估计 的 回归 方程 ， 预 测 7 的 值 。 


提 ”在 自 变量 取 值 范围 以 外 ， 利 用 估计 的 回归 方程 进行 预测 时 要 特别 谨慎 。 因 为 在 这 个 范围 以 外 ， 我 们 不 能 保证 变量 之 间 存 在 同样 的 关系 。 


应 用 
农 4. 下 表 给 出 的 是 在 五 家 零售 贸易 业 公 司 中 工作 的 女性 


职工 所 占 的 百分比 ， 议 及 在 每 一 家 公司 中 由 上 女性 担 
任 管理 工作 的 百分比 数据 。 


女性 职工 的 百分比 (%) | 67 45 73 54 61 
女性 担任 管理 工作 的 百分比 (%)| 49 ， 21 65 47 33 





a. 以 公司 中 女性 职工 所 占 的 百分比 为 自 变 量 ， 绘 制 
出 这 些 数据 的 散 点 图 。 

b. 根据 在 (a) 中 作出 的 散 点 图 ， 这 两 个 变量 之 间 
显示 出 什么 关系 ? 

c， 尝 试 在 公司 中 女性 职工 所 占 的 百分比 和 公司 中 女 
性 担任 管理 工作 的 百分比 之 间 建 立 一 个 近似 的 
关系 。 

d. 计算 4b 和 4b 的 值 , 建立 估计 的 回归 方程 。 

6， 如 果 一 家 公司 的 女性 职工 占 60% ， 斌 预测 该 公司 
由 女性 担任 管理 工作 的 百分比 。 

. 美国 国家 橄榄 球 联 盟 记 录 了 每 名 球员 和 每 支 球 队 各 

种 表现 的 数据 。 为 了 调查 传 球 对 于 一 支 球 队 能 否 获 

胜 的 重要 人 作用， 由 10 支 美 国 国家 覆 榄 球 联盟 的 球 队 

组 成 一 个 随 栅 样本， 每 支 球 队 在 2011 年 赛季 每 次 进 

攻 的 平均 传 球 码 数 (Yds/Att) 和 比赛 的 获胜 率 

(WinPet) 数据 如 下 表 所 示 (NFL website，2012 年 2 

月 12 日) 


球 队 名 称 Yds/Att WinPct 
Arizona Cardinals 0 50 
Atlanta Falcons vi 63 
Carolina Panthers 二; 逻 38 
Chicago Bears 6.4 50 
Dallas Cowboys 7.4 50 
New England Patriots 8. 3 81 
Philadelphia Eagles 7.4 50 
Seattle Seahawks 6.1 44 
St. Louis Rams S. 2 13 
Tmpa Bay Buccaneers 6.2 25 


a 用 水 平 轴 表 示 平均 每 次 传 球 码 数 ， 用 纵 轴 表示 上 比 
赛 的 获胜 率 ， 绘 制 出 这 些 数据 的 散 点 图 。 

b. 根据 在 (a) 中 作出 的 散 点 图 ， 这 两 个 变量 之 间 
显示 出 什么 关系 ? 

c. 建立 估计 的 回归 方程 ， 使 这 个 方程 在 球 队 每 次 进 
攻 的 平均 传 球 码 数 已 知 时 ， 能 用 来 预测 球 队 的 获 
胜率 。 
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d， 对 估计 的 回归 方程 的 斜率 作出 解释 。 

6， 如 果 2011 年 赛季 ，Kansas City Ghiefs 队 的 平均 每 
次 传 球 码 数 是 6.2， 利 用 在 〈6) 中 建立 的 估计 的 
回归 方程 预测 该 队 的 获胜 率 。( 注 : 在 2011 年 赛 
季 ，Kansas City Chiefs 队 的 比赛 记录 是 7 胜 9 
负 。) 将 你 的 预测 结果 与 Kansas City Chiefs 队 的 
实际 获胜 率 进 行 比较 。 


. 美国 个 人 投资 者 协会 的 在 线 折扣 经 纪 商 调查 ， 是 根据 


协会 会 员 与 折扣 经 纪 商 的 经 验 进 行 的 一 项 调查 工作 。 
作为 调查 的 一 部 分 ， 要 求 AAH 的 会 员 对 经 纪 商 的 执 
行 速 度 能 力作 出 评估 ， 以 及 对 电子 交易 提供 一 个 整体 
满意 度 等 级 。 可 能 的 回答 (分 数 ) 分 别 为 无 意见 
(0) ， 不 满意 (1) ， 比 较 满 意 (2) ， 满 意 (3)， 非 常 
满意 (4)。 根 据 每 个 受 访 者 提供 的 分 数 ， 计 算出 加 权 
平均 数 ， 得 到 每 位 经 纪 商 的 总 分 数 。 部 分 调查 结果 如 
下 表 所 示 【AAII website，2012 年 2 月 7 目 )。 


经 纪 公 司 速度 满意 度 
Scottrade , [ne. 3,4 8 培 
Charles Schwab 3.3 3.4 
Fidelity Brokerage Services 3.4 3.9 
TD Ameritrade 3.6 3.4 
E * Trade Financial 3 2.9 
Vanguard Brokerage Services 3.8 2,8 
USAA Brokerage Services 3..8 3.6 
Thinkorswim 2.6 2.6 
Wells Fargo Investments 2.7 2 3 
Interactive Brokers 4.0 4,0 
Zecc0. com 2 2. 5 


4， 以 执行 速度 为 自 变 量 ， 绘制 出 这 些 数据 的 散 点 图 。 

b. 根据 在 (a) 中 作出 的 散 点 图 ， 这 两 个 变量 之 间 
显示 出 什么 关系 ? 

c. 利用 最 小 二 乘法 ， 建 立 估计 的 回归 方程 。 

d. 对 估计 的 回归 方程 的 斜率 作出 解释 。 

e. 假定 Zecco. com 开发 了 新 软件 提高 了 它们 执行 速 
度 的 等 级 。 如 果 新 软件 能 将 执行 速度 的 等 级 从 目 
前 的 2.5 提高 到 其 他 10 个 被 调查 的 经 纪 公 司 的 平 
均 执 行 速 度 等 级 ， 请 你 预测 Zecco. com 的 整体 满 
意 度 等 级 是 多 少 ? 


10. 2009 年 3 月 31 日 ， 福 特 汽车 公司 的 股票 成 交 价 是 


2. 63 美元 ， 为 26 年 来 新 低 。 福 特 汽车 公司 的 董事 
会 将 估价 为 1 600 万 美元 的 优先 购 股 权 和 受 限 制 股 
票 给 予 CEO 作为 报酬 的 补偿 。2011 年 4 月 26 日， 
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福特 汽车 公司 的 股票 价格 增长 到 15.58 美元 ，CEO 
优先 购 股 权 的 价值 已 经 增加 到 2. 028 亿美 元 ， 增 值 
收益 为 1.868 亿美 元 。 下 表 是 10 家 公司 2009 年 和 
2011 年 的 股票 价格 ，2008 年 、2009 年 年 底 股 票 期 
权 和 授 耶 CEHO 的 购 股 权 ， 以 及 2011 年 股票 期 权 和 
购 股 权 的 价值 。 下 表 还 给 出 了 股票 价格 增长 的 百 
分 比 和 购 股 权 价 值 的 百分比 涨幅 (《 华 尔 街 日 报 》， 


a. 以 股票 价格 增长 的 百分比 为 自 变量 ， 绘 制 出 这 
些 数据 的 散 点 图 。 

b. 根据 在 (a) 中 作出 的 散 点 图 ， 这 两 个 变量 之 间 
显示 出 什么 关系 ? 

c. 利用 最 小 二 乘法 ， 建 立 估计 的 回归 方程 。 

d. 对 估计 的 回归 方程 的 斜率 作出 解释 。 

e. 以 股票 价格 为 衡量 标准 ， 给 予 CEO 的 报酬 是 否 


2011 年 4 月 27 日 ) 体现 了 是 基于 业绩 的 增长 ? 
2009 年 股票 期 权 2011 年 股票 期 权 
公司 (半天 “( 革 元 ) 股价 增长 (%) 。 和 购 股 权 的 价值 和 购 股权 的 价值 bg 名 位 信 
| (100 万 美元 ) (100 万 美元 ) 
Ford Motor 2, 63 15, 58 492 16.0 202, 8 1 168 
Abercrombie & Fitch 23. 80 70,47 196 46. 2 196. 1 324 
Nabors Industries 9. 99 32. 06 2%] 3 Ep 255 
Starbucks 9. 99 32, 06 221 12,4 75.9 ey/ 
Salesforce. com 42.73 137. 61 320 7.8 67.0 759 
Starwood Hotels 12. 70 60. 28 375 $5.8 "| 884 
Caterpillar 27, 96 111.94 300 4.0 47.5 1 088 
Oracle 18. 70 34. 97 94 61.9 97.5 $58 
Capital One 12. 24 54. 61 346 6.0 40.6 577 
Dow Chemical 8.43 39. 97 374 3. 0 38.8 676 
12. Concur Technologies 公司 是 一 家 位 于 华盛顿 州 Red- b. 根据 在 (a) 中 作出 的 散 点 图 ， 酒 店 房租 和 娱乐 
mond 的 大 型 费用 管理 公司 。《 华 尔 街 日 报 》 要 求 费用 这 两 个 变量 之 间 显 示 出 什么 关系 ? 


公司 对 830 万 份 的 费用 报告 进行 调查 ， 以 提供 有 关 
商务 旅行 费用 的 意见 。 公 司 的 数据 分 析 表 明 纽 约 
是 最 昂贵 的 城市 ; 平均 每 天 酒店 房租 为 198 美元 ， 
平均 娱乐 费用 为 172 美元 ， 其 中 和 包括 团队 的 餐饮 、 
演出 和 体育 比赛 的 门票 以 及 其 他 活动 。 相 比 之 下 ， 
这 两 项 支出 在 美国 的 平均 费用 是 ,酒店 房租 为 89 
美元 ， 娱 乐 费 用 为 99 美元 。 从 25 个 参 访 人 数 最 多 
的 美国 城市 中 抽取 9 个 城市 组 成 一 个 随机 样本 ， 
这 9 个 城市 的 平均 每 天 酒店 房租 和 平均 娱乐 费用 
如 下 表 所 示 (《 华 尔 街 日 报 》，2011 年 8 月 18 日 )。 


品 


利用 最 小 二 乘法 ， 建 立 估计 的 回归 方程 。 

d. 对 估计 的 回归 方程 的 斜率 作出 解释 。 

e， 芝加哥 平均 每 天 酒店 房租 是 128 美元 ， 较 美国 的 
平均 水 平 高 。 预 测 芝加哥 每 天 的 平均 娱乐 费用 。 


.PC World 杂志 根据 外 观 、 性 能 、 设 计 和 价格 等 4 个 


方面 的 特性 对 10 台 超 薄型 便携 式 笔 记 本 电脑 进行 等 
级 评估 。 每 个 特性 的 等 级 评估 采用 用 百分制 。 对 于 
每 一 台 超 薄型 便携 式 笔 记 本 电脑 ， 将 得 到 一 个 称 为 
PCW World 的 总 体 等 级 评估 分 。 下 表 是 10 台 超 薄型 
便携 式 笔记 本 电脑 的 外 观 和 PCWW World 的 等 级 评估 
分 (PC World website，2009 年 2 月 5 日 ) 


城市 酒店 房租 (美元 ) 娱乐 费用 (美元 ) 
波士顿 148 161 a. 以 外 观 等 级 评估 分 为 自 变 量 ， 绘 制 出 这 些 数据 
丹佛 二 03 的 散 点 图 。 
i b, 根据 在 《a) 中 作出 的 散 点 图 ， 外 观 等 级 评估 分 
菲尼克斯 90 100 和 PCW World 等 级 评估 分 这 两 个 变量 之 间 显 示 
亲 迁 长 102 120 出 什么 关系 ? 
旧金山 136 -这 c. 利用 最 小 二 乘法 ， 建 立 估计 的 回归 方程 。 
圣何塞 90 140 汪汪 
坦 帕 a 二 d. 对 于 一 台新 的 超 薄型 便携 式 笔 记 本 电脑 ， 它 的 


a， 以 酒店 房租 为 自 变 量 ， 绘 制 出 这 些 数 据 的 散 点 图 。 


外 观 等 级 评估 分 为 70， 预 测 该 台电 脑 的 PCW 
World 等 级 评估 分 。 


第 14 章 ”简单 线性 回归 321 


笔记 本 电脑 型 号 外 现 等 级 评估 分 PCW Worid 等 级 评估 分 ‖ ”笔记 本 电脑 型 号 。 外观 等 级 评估 分 “PCW Worid 等 级 评估 分 


‘Thinpad X200 87 83 Thinpad X300 76 78 
VGN-Z5980 85 82 1deapad U110 81 77 
U6V 80 81 Micro Express JET2500 73 75 
Elitebook 2530P 75 78 Toabbbiok WY 79 73 
X360 | 80 78 ||HP Voodoo Envy133 68 72 

14. 3 判定 系数 


对 Armand 比萨 饼 连 锁 店 的 例子 ,我 们 求 出 了 估计 的 回归 方程 是 了 =60 +5x， 并 用 这 个 方程 作为 学 生 人 数 x 和 
季度 销售 收入 y 之 间 线 性 关系 的 一 个 近似 。 现 在 所 在 我 们 面前 的 问题 是 ; 估计 的 回归 方程 是 否 很 好 地 拟 合 了 样本 
数据 ?在 这 一 节 ， 我 们 将 说 明 ， 判 定 系 数 (coefficient of determination) 为 估计 的 回归 方程 提供 了 一 个 拟 合 优 度 的 
|: So 
对 于 样本 中 的 第 i 次 观测 值 ， 应 变量 的 观测 值 y, 和 应 变量 的 预测 值 7 之 间 的 离 差 称 为 第 i 个 残 差 (i th residual) 。 
第 ;个 残 差 表示 用 六 去 估计 入 的 误差 。 于 是 ， 对 于 第 i 次 观测 值 ， 它 的 残 差 是 y, -区 。 这 些 残 差 或 误差 的 平方 和 是 
i bi 和 记 作 SSE。 





wa 
对 于 Armand 比萨 饼 连 锁 店 的 例子 ,我 们 在 表 14-3 中 给 出 了 计算 误差 平方 和 所 需要 的 计算 过 程 。 例 如 ， 对 于 
第 1 家 连锁 店 ， 自 变量 的 值 是 x, =2， 应 变量 的 值 是 y, =58。 利 用 估计 的 回归 方程 ， 我 们 求 出 第 1 家 连锁 店 季 度 销 
售 收入 的 预测 值 是 7, =60 +5 x2 =70。 于 是 ， 对 于 第 1 家 连锁 店 ， 用 7 去 预测 y, 的 残 差 是 y, -7 =58 -70 = -12。 
误差 的 平方 是 ( -12) ”=144 ， 我 们 将 它 写 在 表 14-3 的 最 后 一 列 。 对 样本 中 的 每 一 家 连锁 店 计算 残 差 并 平方 后 ， 
我 们 对 它们 求 和 得 到 SSE =1530。 于 是 ， 对 于 Armand 比萨 饼 连 锁 店 的 例子 ，SSE =1 530 度量 了 用 估计 的 回归 方程 
7Y=60+5x 预测 季度 销售 收入 所 产生 的 误差 。 
表 14-3 Armand 比萨 饼 连 锁 店 SSE 的 计算 
xi = 学 生 人 数 = 季度 销售 收入 季度 销售 收入 预测 什 


(1000 人 ) (1000 美元 ) y, =60 +5x, 一 宽 整 一 误差 平方 (y, -~ y,)? 
1 2 58 70 <- 秘 144 
2 "0 105 2 多 未 225 
3 8 88 100 - 拉 144 
4 8 118 100 18 324 
5 12 117 120 本 9 
6 16 137 140 3 9 
7 20 157 160 5 9 
8 20 169 160 9 81 
9 22 149 170 -21 441 

10 26 202 190 12 144 
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-现在 假定 在 不 知道 学 生 人 数 的 情况 下 ， 要 求 我 们 给 出 季度 销售 收入 的 一 个 估计 值 。 -在 没有 任何 相关 变量 信息 
的 情况 下 ， 对 任意 一 个 给 定 的 连锁 店 ， 我 们 可 以 利用 样本 平均 值 作为 这 家 连锁 店 季度 销售 收入 的 一 个 估计 值 。 
表 14-2 表 明 ， 对 于 销售 收入 的 样本 数据 ， 有 y=1300。 于 是 ， 对 于 由 10 家 Armand 比萨 饼 连 锁 店 组 成 的 样本 ， 
季度 销售 收入 的 平均 值 是 7= Zyvn =1 300/10 =130。 在 利用 样本 平均 值 7= 130 预测 样本 0 
销售 收入 将 产生 离 差 ， 这 些 离 差 的 平方 和 我 们 列 在 表 14-4 的 最 后 一 列 。 对 于 样本 中 的 第 i 家 连锁 店 ， 离 差 y; -7 
给 出 了 利用 样本 平均 值 7 去 预测 季度 销售 收入 所 产生 的 误差 的 一 个 度量 。 i elder teeter ed 
和 ， 记 作 SST。 





在 表 14-4 中 ， 最 后 一 列 底部 的 和 就 是 Armand 比萨 饼 连锁 店 例子 的 总 平方 和 ， 它 是 SST =15730。 

在 图 14-5 中 ,我 们 给 出 了 估计 的 回归 线 了 =60 +5x 和 对 应 于 了 =130 的 直线 的 图 形 。 从 图 上 我 们 注意 到 ， 样 本 
点 集聚 在 估计 的 回归 线 周围 比 集聚 在 直线 了 = 130 周围 更 紧密 。 例 如 ， 对 于 样本 中 的 第 10 家 连锁 店 ， 我 们 看 到 用 
x0 作为 yi, 的 预测 值 比 用 分 =60 +5 x26 =190 作为 yo 的 预测 值 产生 的 误差 大 得 多 。 我 们 可 以 把 SST 看 作 是 观 
测 值 在 直线 了 = 130 周围 集聚 程度 的 度量 ， 而 把 SSE 看 作 是 观测 值 在 回归 线 ? = 60 +5x 周围 集 罕 程度 的 度量 。。 

为 了 度量 在 估计 的 回归 线 上 的 ? 值 与 直线 了 的 偏离 有 和 多大， 我 们 需要 计算 另 一 个 平方 和 。 这 个 平方 和 被 称 为 加 


归 平 方 和 ， 记 作 SSR。 





四 生 让 1 全 
1 2 58 
2 6 105 
3 8 88 
4 8 118 
5 i 117 
6 16 137 2 
7 20 157 
8 20 169 站 01l520272426 
9 22 149 ”学 生 人 数 Cl 000 人 ) 
10 26 202 


图 14-5 ”Armand 比萨 饼 连 锁 店 的 估计 的 
回归 线 与 直线 y =7 的 离 差 








从 上 述 讨论 中 ， 我 们 应 该 预期 到 SST，SSR 和 SSE 三 者 之 间 是 有 联系 的 。 事 实 上 ， 这 三 个 平方 和 之 间 的 关系 
给 出 了 统计 学 中 最 重要 的 一 个 结果 。 





© 因为 S38T = 15730，SSE =1530， 所 以 ,估计 的 回归 线 对 样本 数据 的 拟 合 比 直线 y= 了 更 好 。 
名 我 们 把 SSR 理解 为 SST 的 被 解释 的 部 分 ， 把 SSE 理解 为 SST 的 未 被 解释 的 部 分 。 
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式 (14-I1) 表明 ， 总 的 平方 和 能 被 分 解 成 两 部 分 : 回归 平方 和 和 误差 平方 和 。 因 此 ， 如 果 已 知 这 三 个 平方 
和 中 的 任意 两 个 ， 都 能 很 容易 地 计算 出 第 三 个 平方 和 。 例 如 ， 在 Armand 比萨 饼 连 锁 店 的 例子 中 , 我 们 已 经 知道 
SSE =1530 和 SST =15 730， 所 以 从 式 (14-11) 中 解 出 SSR， 我 们 得 到 回归 平方 和 是 

SSR = SST -SSE = 15 730 -1530 = 14 200 

现在 让 我 们 看 一 下 ， 如 何 利用 这 三 个 平方 和 SST、SSR 和 SSE 为 估计 的 回归 方程 给 出 一 个 拟 合 优 度 的 度量 。 
如 果 应 变量 的 每 一 个 值 ,都 刚好 落 在 估计 的 回归 线 上 ， 那 么 估计 的 回归 方程 将 给 出 一 个 完全 的 拟 合 。 在 这 种 情况 
下 ， 对 于 每 一 个 观测 值 ，y, -7; 将 等 于 零 ， 从 而 导致 SSE =0。 因 为 SST=SSR +SSE, 我 们 看 到 对 于 一 个 完全 拟 合 ， 
SSR 必须 等 于 SST,， 并 且 比 值 SSRXSST 必须 等 于 1。 比较 差 的 拟 合 将 导致 SSE 的 值 比较 大 。 从 式 (14-11) 中 解 出 
SSE， 我 们 得 到 SSE = SST = SSR。 因 此 ， 当 SSR =0， 从 而 SSE=SST 时， 这 时 候 SSE 的 值 最 大 ( 即 最 差 的 拟 合 )。 
一 比值 SSRXZSST 将 在 0 和 1 之 间 取 值 ， 我 们 利用 这 个 比值 对 估计 的 回归 方程 的 拟 合 优 度 作 出 评估 。 这 个 比值 被 
称 为 判定 系数 ， 记 作 记 和 








对 于 Armand 比萨 饼 连 锁 店 的 例子 ， 判 定 系数 的 值 是 
2 -SSR _ 14200 _ 
ST ~ 15 730 
如 果 我 们 用 一 个 百分数 表示 判定 系数 ， 我 们 能 把 ” 理解 为 总 平方 和 中 能 被 估计 的 回归 方程 解释 的 百分比 。 对 
于 Armand 比萨 饼 连 锁 店 的 例子 ， 在 用 估计 的 回归 方程 去 预测 季度 销售 收入 时 ， 我们 能 断定 ， 总 平方 和 中 的 
90. 27% 能 被 估计 的 回归 方程 ?=60 +5x 所 解释 。 换 句 话说， 季度 销售 收入 变异 性 的 90. 27% 能 被 学 生 人 数 和 销售 
收入 之 间 的 线性 关系 所 解释 。 对 于 估计 的 回归 方程 ， 我 们 应 该 对 得 到 一 个 这 样 好 的 拟 合 效果 而 感到 满意 。 


相关 系数 

在 第 3 章 中 ， 作 为 两 变量 x 和 7y 之 间 线 性 关系 强度 的 描述 性 度量 , 我们 介绍 了 相关 系数 (correlation 
coe 值 cient) 的 概念 相关 系数 的 数值 总 是 介 于 - 1 ~ +1。 车 相关 系数 的 数值 等 于 + 1， 则 表示 两 个 变量 x 和 y 之 间 
存在 完全 正 向 的 线性 关系 ， 即 全 部 数据 点 都 落 在 一 条 斜率 为 正 的 直线 上 ; 车 相关 系数 的 数值 等 于 ~- 1， 则 表示 两 
个 变量 x 和 y 之 间 存在 完全 负 向 的 线性 关系 ， 即 全 部 数据 点 都 落 在 一 条 斜率 为 负 的 直线 上 ; 车 相关 系数 的 数值 接 
近 于 零 ， 则 表示 两 个 变量 x 和 y 之 间 不 存在 线性 关系 。 

在 第 3.5 节 中 ,我 们 曾经 给 出 过 计算 样本 相关 系数 的 公式 。 如 果 我 们 已 经 完成 了 回归 分 析 ， 并 且 计 算出 了 判 
定 系 数 让 ， 那 么 我 们 就 能 用 下 面 的 公式 计算 样本 相关 系数 。 





如 果 估 计 的 回归 方程 的 斜率 为 下 (bi >0)， 那 么 样本 相关 系数 的 符号 为 正 ; 如果 估 计 的 回归 方程 的 斜率 为 负 
(5b <0)， 那么 样本 相关 系数 的 符号 为 负 。 
对 于 Armand 比萨 饼 连 锁 店 的 例子 ， 对 应 于 估计 的 回归 方程 ?= 60 + 5x*， 判 定 系数 的 数值 是 0. 9027。 因 为 估计 
的 回归 方程 的 斜率 是 正 的 , 所 以 由 式 (14-13) ， 我 们 得 到 的 样本 相关 系数 是 + V0. 902 7 = +0. 950 1。 由 于 样本 相 
关系 数 rm = +0.9501， 所 以 我 们 可 以 得 出 结论 : x 和 7 之 间 存 在 一 个 强 的 正 向 线性 关系 。 
”在 两 变量 之 间 存 在 一 个 线性 关系 的 情况 下 ， 判 定 系数 和 样本 相关 系数 都 给 出 了 它们 之 间 线 性 关系 强度 的 度 
量 。 判 定 系数 给 出 的 测度 数值 在 0 ~ 1 ， 而 样本 相关 系数 给 出 的 测度 数值 在 -1 ~ +1。 虽 然 样本 相关 系数 的 适用 范 
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围 被 限制 在 两 变量 之 间 存 在 线性 关系 的 情况 ， 但 判定 系数 对 非 线 性 关系 以 及 有 两 个 或 两 个 以 上 自 变量 的 相关 关系 
都 适用 。 在 这 种 意义 上 上， 判定 系数 有 着 更 广泛 的 应 用 范围 。 

注释 和 评论 

1. 在 利用 最 小 二 乘法 求 出 估计 的 回归 方程 和 计算 判定 系数 时 ,我 们 并 没有 对 模型 的 误差 项 s 作出 任何 的 概 闵 
假定 ， 也 没有 对 x 和 yy 之 间 关 系 的 显著 性 进行 统计 检验 。r 的 数值 比较 大 ， 只 不 过 意味 着 最 小 二 乘 回归 直 
线 比 较 好 地 拟 合 了 样本 数据 ， 也 就 是 说 ， 观 测 值 比较 紧密 地 图 绕 在 最 小 二 乘 回归 直线 周 图 。 但 是 仅仅 利用 
r”， 我 们 不 能 得 出 %* 和 yy 之 间 的 关系 在 统计 上 是 否 显 著 的 结论 。 这 样 一 个 结论 必须 建立 在 进一步 深入 研究 
的 基础 上 ， 包 括 对 样本 容量 的 研究 和 对 最 小 二 乘 估计 量 适当 的 抽样 分 布 性 质 的 研究 。 

. 在 实际 问题 中 ,例如 在 社会 科学 问题 中 遇 到 的 典型 数据 ， 尽 管 * 的 数值 低 于 0.25， 通 常 也 被 认为 是 令 人 满 
意 的 。 而 在 自然 科学 和 生命 科学 问题 中 到 的 数据 ， 经 常会 出 现 广 的 数值 大 于 或 等 于 0.60。 事 实 上 ， 在 某 
些 情 况 下 ， 我 们 有 时 还 能 遇 到 下 的 数值 大 于 0.90 的 情形 。 在 商务 应 用 中 ,的 数值 将 依据 每 一 个 应 用 的 独 
特性 质 发 生 非常 大 的 变化 。 


re va, Ww Y ， WE - i -SP ”a j 
| i 县 y P r\ 
有 号 . ey 


方法 c. 样本 相关 系数 的 数值 是 多 少 ? 

16. 第 2 题 的 数据 如 下 。 20，Bicycling 是 全 球 权威 的 自行 车 运动 杂志 ， 该 杂志 终 
年 都 对 数 以 百 计 的 自行 车 进行 评论 。 其中， 杂志 
的 “公路 赛车 ”栏目 包含 了 对 自行 车 的 评论 ， 而 
这 些 自行 车 的 使 用 者 主要 是 那些 对 自行 车 运动 感 
兴趣 的 车 手 们 。 选 择 一 辆 比赛 用 自行 车 最 重要 的 
因素 之 一 是 车 的 重量 。 被 该 杂志 评论 的 10 辆 公路 
比赛 用 自行 车 的 重量 ( 磅 ) 和 价格 (美元 ) 数据 
如 下 表 所 示 (Bicycling website，2012 年 3 月 8 日 )。 


> 





这 些 数据 的 估计 的 回归 方程 是 yx=68 -3x 

a. 计算 SSE，SST 和 SSR。 

b. 计算 判定 系数 。 请 对 拟 合 优 度 作出 评述 。 
c. 计算 样本 相关 系数 。 


应 用 品牌 重量 〈 磅 ) 。” 价格 (美元) 
女 18. 经 《消费 者 报告 》 测 试 的 六 个 立体 声 耳 机 的 品牌 、 Ne 本 和 
价格 和 整体 评价 得 分 的 数据 如 下 表 所 示 (Consumer Et 0 
Sop website，2012 年 3 月 5 日 )。 营 体 评价 年 分 EDDY MERCKX EMX-7 15.9 6200 
是 基于 音质 和 降低 环境 嗓音 的 效果 而 得 到 的 。 得 ee a eh 
分 范围 从 0 (最 低 ) 到 100 (最 高 )。 根 据 这 些 数 人 Ur i 
据 得 到 的 估计 的 回归 方程 是 yx =23.194 +0.318x， CERVELO S5 Team 16.2 6 000 
其 中 x= 价 格 (美元 ) 和 y= 整体 得 分 。 GIANT TCR Advanced 2 17.1 2 580 
品牌 价格 (美元) 整体 评价 得 分 ee 2 
180 76 SPECIALIZED S-Works Amira SI4 | 8 000 
PN _ 人 a 利用 这 些 数据 ， 建 立 一 个 估计 的 回归 方程 ， 使 该 广 
i 和 和 程 在 一 辆 自行 车 重量 已 知 的 精 形 下 ， 能 用 来 估计 该 
Denon 70 40 PE 
ee 站 a b. 计算 rm。 估计 的 回归 方程 对 这 些 观 测 数据 的 拟 


a. 计算 SST，SSR 和 SSE。 
b. 计算 判定 系数 。 请 对 拟 合 优 度 作 出 评述 。 


合 好 吗 ? 


c， 若 一 辆 自行 车 的 重量 是 15 磅 ， 预 测 该 车 的 价格 。 


22. 参阅 第 5 题 。 下 面 的 数据 曾 用 于 研究 : 在 一 般 情形 
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下 ， 较 高 价格 的 椭圆 机 是 否 具 有 较 高 的 总 体 评价 分 相关 关系 ? 
eit Le ET 价格 (美元) ”总 体 评价 分 数 
若 x= 价 格 ( 美 元 ) ，y= 总 体 评 价 分 ， 则 估计 的 ped 5700 
归 方 程 是 》=58. 158 + 0. 008 449x。 对 于 这 些 数据 ， Key Fitiness CC2 2 500 84 
SSE = 173. 88 。 Octane Fimess Q37e 2 82 
a 计算 判定 系数 广 。 LifeFitness X1 Basic 1 900 74 
b. 估计 的 回归 方程 对 这 些 数据 的 拟 合 好 吗 ? 请 作 Nordic Track AudioStrider 990 1 000 73 
出 解释 。 Schwinn 430 800 69 
样本 相关 系数 的 数值 是 多 少 ? 样本 相关 系数 反映 Wi Fe 人 
出 在 价格 和 总 体 评价 分 数 之 间 存 在 强 的 还 是 弱 的 sa 2 二 


14. 4 ”模型 的 假定 


在 进行 回归 分 析 时 ， 我 们 首先 要 对 描述 应 变量 和 自 变 量 之 间 关 系 的 模型 作出 一 些 假定 。 对 于 简单 线性 回归 情 
况 ， 假 定 回归 模型 是 
三 Bxr+e 
然后 利用 最 小 二 乘法 ， 分 别 求 出 模型 参数 B 和 局 | 的 估计 值 5 和 6,。 得 到 估计 的 回归 方程 是 
by + bx 
我 们 已 经 知道 ， 判 定 系数 的 值 是 估计 的 回归 方程 拟 合 优 度 的 度量 。 然 而 ， 尽 管 有 一 个 较 大 的 数值 ， 但 是 
在 对 假定 模型 的 合理 性 作出 进一步 的 分 析 完 成 之 前 ， 我 们 还 不 能 应 用 这 个 估计 的 回归 方程 。 确 定 假定 的 模型 是 否 
合理 的 一 个 重要 步 又， 是 要 对 变量 之 间 关 系 的 显著 性 进行 检验 。 回 归 分 析 中 的 显著 性 检验 是 以 对 误差 项 s 的 下 列 
假定 为 依据 进行 的 。 





图 14-6 是 对 模型 假定 及 其 含义 的 一 一 个 说 明 。 值 得 注意 的 是 ， 从 这 个 图 形 解释 中 可 以 看 出 ，E(y) 的 值 是 根据 
被 考虑 的 具体 的 x 值 的 变化 而 变化 。 然 而 ， 不 论 x 的 值 怎 样 变 化 ，s 和 y 的 概率 分 布 都 是 正 态 分 布 ， 并 且 具 有 相 
Pip i pa 误差 项 e 的 具体 数值 依赖 于 y 的 实际 值 是 大 于 还 是 小 于 E(y)。 
住 ， 我 们 还 曾经 对 变量 ; xx 和 Yy 之 间 关系 的 形式 做 过 一 个 假定 或 假设 ， 即 我 们 假定 ， 两 变量 






样 一 个 事实 ， 一 些 其 他 形式 的 模型， 
例如 y = 有 + 有 2 +s， 或 许可 能 下 
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-30HN 
Me 当 x=30 了 时 的 分 布 
y 
” 当 x=10 时 y 的 分 布 5 
当 x=10 时 的 EQ) _ 本 
当 x=0 时 的 0) he 
"ee a 
多 2 二 
= 
1 人 < 
we a 2 (y) 巨人 的 = 


0 一、 当 x=20 时 的 E(y) 


图 14-6 回归 模型 的 假定 
注 : 对 于 每 一 个 x 值 ，y 的 分 布 都 有 相同 的 形状 。 


14.5 显著 性 检验 


在 一 个 简单 线性 回归 方程 里 ，y 的 平均 值 或 期 望 值 是 * 的 一 个 线性 函数 : E(y) =Bu +B,x。 如 果 B, 的 值 是 零 ， 
E(y) =pBo +0x=po。 在 这 种 情况 下 ，y 的 平均 值 或 期 望 值 不 依赖 于 * 的 值 ， 因 此 我 们 的 结论 是 ， 在 两 变量 x 和 ;之 
间 不 存在 线性 关系 。 换 一 种 说 法 ， 如 果 B, 的 值 不 等 于 零 ， 我 们 的 结论 是 ， 在 两 变量 * 和 y 之 间 存在 线性 关系 。 于 
是 , 为 了 检验 两 变量 之 间 是 否 存 在 一 个 显著 的 回归 关系 ， 我 们 必须 进行 一 个 假设 检验 ， 用 来 判定 B, 的 值 是 否 等 于 
零 。 通 常 使 用 的 检验 方法 有 两 种 ， 这 两 种 方法 都 需要 知道 回归 模型 误差 项 e 的 方差 e 的 估计 值 。 


14. 5. 1 的 估计 

从 回归 模型 和 它 的 假定 中 ， 我 们 可 以 得 出 结论 : s 的 方差 史 也 是 应 变量 y 的 值 关于 回归 直线 的 方差 。 回 想 一 
下 ,我 们 曾经 将 y 的 值 关 于 估计 的 回归 直线 的 离 差 称 为 残 差 。 所 以 ， 残 差 平 方 和 SSE 是 实际 观测 值 关 于 估计 的 回 
归 直 线 变异 性 的 度量 。 我 们 用 SSE 除 以 它 自 己 的 自由 度 ， 得 到 均 方 误差 (mean square eror，MSE)。 均 方 误差 给 
出 了 的 一 个 估计 量 。 

因为 ?; = 如 +bx,;， 所 以 SSE 可 以 写成 

SSE = ZE(y; -FN)* = TE(y, -hb = br)’ 

每 一 个 平方 和 都 有 一 个 与 之 相 联系 的 数 ， 这 个 数 叫 作 自由 度 。 统 计 学 家 已 经 证 明 ， 为 了 计算 SSE， 必 须 估计 
两 个 参数 (B。 和 pB,) ， 所 以 SSE 的 自由 度 是 a -2。 于 是 ， 用 SSE 除 以 n -2， 就 能 计算 出 均 方 误差 。MSE 是 o 的 
一 个 无 偏 估 计量 。 因 为 MSE 的 值 给 出 了 of 的 一 个 估计 ， 我们 用 记号 s* 表示 。 
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在 第 14. 3 节 Armand 比萨 饼 连 锁 店 We 我 们 已 经 得 到 SSE = 1 530， 于 是 e 的 一 个 无 偏 估计 值 是 


= MSE 2 2 - 191. 25 


为 了 估计 oa， 我们 计算 ;的 平方 根 ， 所 得 到 的 结果 3s re ( standard error of the estimate ) 。 





对 于 Armand 比萨 饼 连 锁 店 的 例子 ，s = VMSE.= V191.25 =13. 829。 在 下 面 的 讨论 中 ， 我 们 利用 估计 的 标准 
误差 ， 对 两 变量 x 和 y 之 间 的 关系 进行 显著 性 检验 。 


2 检验 
对 于 简单 线性 回归 模型 y=p, +Bix +e， 如 果 x 和 y 之 间 存 在 一 个 线性 关系 ， 我 们 必须 有 B 关 0。: 检验 的 目的 
是 我 们 能 否 断 定 B, 关 0。 我 们 将 利用 样本 数据 去 检验 下 面 的 关于 参数 B, 的 假设 。 
HosB, = 0 
H,:B, 0 
如 果 Ho 被 拒绝 ， 我 们 将 会 得 到 Bi 0 的 结论 ， 于 是 在 两 变量 x 和 7 之 间 存 在 一 个 统计 上 是 显著 的 关系 ; 如 果 
绝 ， 我 们 将 没有 充分 的 理由 来 断定 ， 在 两 变量 * 和 y 之 间 存在 一 个 统计 上 是 显著 的 关系 。pB, 的 最 小 二 
乘 估计 量 的 抽样 分 布 性 质 给 出 了 假设 检验 的 基础 。 
首先 让 我 们 考虑 一 下 ， 如 果 在 同样 的 回归 研究 中 ， 我 们 使 用 了 不 同 的 随机 样本 ， 将 会 出 现 什 么 情况 。 例 如 ， 
nd 比萨 饼 连锁 店 的 例子 中 ， 假 设 我 们 使 用 了 由 另外 10 家 连锁 店 组 成 的 样本 得 到 的 季度 销售 收入 数据 。 
j 归 分 析 ， 得 到 的 估计 的 回归 方程 可 能 与 我 们 前 面 得 到 的 估计 的 回归 方程 = 60 + Sx 相 类 似 ， 
但 是 不 可 能 得 到 完全 相同 的 回归 方程 ( 截 距 恰好 是 60 ， 斜 率 恰好 是 5) 。 实 际 上 ， 最 小 二 乘 估 计量 % 和 b, 是 样本 
统计 量 ， 它 们 有 着 自己 的 抽样 分 布 。w 抽样 分 布 的 性 质 如 下 。 















注意 ，b, 的 期 望 值 等 于 B,， 所 以 5, 是 B, 的 无 偏 估计 量 。 
因为 o 的 值 未 知 ， 为 了 求 出 wu 的 一 个 估计 % ， 我 们 用 o 的 估计 代入 式 (14-17) ， 于 是 我 们 得 到 下 面 0 的 估计 . 





对 于 Armand 比萨 饼 连 锁 店 的 例子 ，s = 13. 829。 于 是 ， 利 用 表 14-2 给 出 的 结果 ，(x, -x) =568 ， 我 们 得 
到 4b, 的 估计 的 标准 差 为 





日 上 的 标准 差 oj 也 被 称 为 b) 的 标准 误差 。 于是， 5 给 出 了 入 的 标准 误差 的 一 个 估计 。 
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13. 829 
$, 5805 
v568 
人 1 检验 的 依据 是 ， 检 验 统计 量 
b: b! —B 3 


是 一 个 服从 自由 度 为 n=2 的 + 分布 。 如 果 原 假设 成 立 ， Np, =0, 并 且 4=b/s,。 
现在 让 我 们 在 a=0.01 的 显著 性 水 平 下 ， 对 Armand 比萨 饼 和 连锁店 的 例子 进行 显著 性 检验 。 检 验 的 统计 量 为 





从 :分 布 表 -( 表 D2) 中 我 们 得 到 ， 当 自由 度 为 4a-2=10 -2 -8 时 ,t=3. 355 的 :分布 上 侧 的 面积 是 0.005。 于 是 
对 应 于 检验 统计 量 +=8. 62 的 + 分布 上 侧 的 面积 一 定 小 于 0.005。 因 为 这 是 双 侧 检验 ,我们 可 以 断定 ， 与 += 8. 62 
相 联 系 的 p- 值 一 定 小 于 2 倍 的 0.005， 即 一 定 小 于 2 x0. 005 =0.01。Excel 或 Minitab 给 出 的 p- 值 =0; 000。 因 为 p- 
值 小 于 “=0. 01， 所 以 我 们 拒绝 Bu ， 并 且 得 到 结论 : B, 显著 不 等 于 零 。 这 一 结果 足以 使 我 们 断定 ， 学 生 人 数 和 季 
度 销售 收入 之 间 存 在 一 个 显著 的 关系 。 a 并 缚 加 才华 t 检 验 的 步骤 如 下 。 





bh 十 二 
式 中 , b 为 B， 的 点 估计 量 ; tasi 为 边际 误差 。 与 这 个 置信 区 间 林 
n -2 时 ,使 1 分 布 的 上 侧面 积 为 a/2 的 上 值 。 
例如 ， 对 于 Armand 比萨 饼 连 锁 店 的 例子 ， 假设 我 们 希望 建立 一 个 的 99% 的 置信 区 间 估计 。 对 于 置信 系数 
a=0.01 和 自由 度 mn-2 -10 -2=8， 我 们 从 表 B-2 中 ,得 到 tuw =3.355。 于 是 ，p， 的 29% 的 竹 的 问 晤 
有 二 0. OO 5 5 Wit 


系 的 置信 系数 是 1 -a; ts 为 自由 度 为 





即 为 3. 05 mi 人 95 a 
在 对 B 的 显著 性 





Wey H.:B, #0 
作为 可 供 选 择 的 一 种 方法 ， 对 于 Armand ud 比萨 饼 连 镍 店 的 数据 ， 在 a =0.01 的 显著 性 水 平 下 ， 我 们 可 以 使 用 99% 


后 ”本 书 配 套 光 盘 中 的 附录 14C 和 附录 14D 说 明了 如 何 使 用 Minitab 和 Excel 计算 产值 。 
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的 置信 区 间 得 到 假设 检验 的 结论 。 因 为 B 的 假设 值 是 0， 而 0 没有 包括 在 置信 区 间 〈3.05，6.%5) 里 ， 所 以 我 们 可 以 
拒绝 Hu， 并 且 可 以 断定 ， 在 学 生 人 数 和 季度 销售 收入 之 间 存 在 一 个 在 统计 上 是 显著 的 关系 。 在 一 般 情 况 下 ， 我 们 可 
以 利用 置信 区 间 对 B, 的 任何 双 侧 假设 进行 检验 。 如 果 B, 的 假设 值 包括 在 置信 区 间 里 ， 则 不 拒绝 Hu; 和 否则， 拒绝 Hu 。 


14.5.4  F 检 验 


建立 在 刁 概 率 分 布 基础 上 的 下 检验 ， 也 可 以 用 来 对 回归 方程 进行 显著 性 检验 。 在 仅 有 一 个 自 变量 的 情况 时 ， 
F 检验 将 得 出 与 + 检验 同样 的 结论 ; 即 如 果 1 检验 表明 B, 关 0， 因 此 变量 之 间 存 在 一 个 显著 的 关系 ， 那 么 ， 屎 检验 
也 将 表明 变量 之 间 存在 一 个 显著 的 关系 。 但 是 ， 如 果 回 归 方 程 有 两 个 或 两 个 以 上 自 变量 的 情况 时 ，F 检验 仅仅 能 
被 用 来 检验 回归 方程 总 体 的 显著 关系 。 

为 了 确定 变量 间 的 回归 关系 在 统计 上 是 否 显著 ,我 们 所 使 用 的 下 检验 的 基本 原理 是 基于 建立 的 两 个 独立 的 估计 
量 。 我 们 已 经 解释 了 ，MSE 是 的 一 个 估计 量 。 如 果 原 假设 H,: B, =0 成 立 ， 那么 用 回归 平方 和 SSR 除 以 它 的 自由 度 就 
给 出 了 到 的 另 一 个 独立 的 估计 量 。 这 个 估计 量 被 称 为 来 自 于 回归 的 均 方 ， 简 称 均 方 回归 ， 用 MSR 表示 。 在 一 般 情 况 下 ， 


. 
MOR 届 亲 本 全 订 


对 在 本 书 中 我 们 所 研究 的 模型 ， 回 归 自 由 度 总 是 等 于 模型 中 自 变量 的 个 数 。 于 是 


_ .8R . 
MSR = 百 英 量 的 不 邓 (14-20) 


由 于 在 本 章 中 ， 我 们 考虑 的 回归 模型 仅 含 有 一 个 自 变量 ， 所 以 我 们 有 MSR = SSR/1 = SSR。 因 此 对 Armand 比 
萨 饼 连锁 店 的 例子 ，MSR = SSR = 14 200。 

如 果 原 假设 Hu: B, =0 成 立 ， 则 MSR 和 MSE 是 ez 的 两 个 独立 的 佑 计量， 并 且 MSR/MSE 的 抽样 分 布 是 服从 
分 子 的 自由 度 为 1， 分 母 的 自由 度 为 -2 的 下 分 布 。 所 以 当 B, =0 时 ，MSR/MSE 的 值 应 接近 于 1。 但是， 如 果 原 
假设 H,: B, 关 0 不 成 立 ，MSR 将 高 佑 co ， 并 且 MSR/MSE 的 值 将 变 得 无 穷 大 ; 于 是 ， 较 大 的 MSR/MSE 的 值 将 导 
致 拒绝 Hu， 并 且 我 们 可 以 断 宇 ， 两 变量 x 和 y 之 间 的 关系 在 统计 上 是 显著 的 。 

现在 我 们 对 Armand 比萨 饼 连 锁 店 的 例子 进行 检验。 检验 的 统计 量 是 

ASR 200 a os 











MSE 191.25 

从 表 B4 中 ， 我 们 查 出 ， 当 分 子 的 自由 度 为 1， 分 母 的 自由 度 为 n -2=10 -2=8 时 ,下 =11.26 的 严 分 布 上 侧 的 
面积 是 0.01。 于 是 对 应 于 检验 统计 量 =74.25 的 分布 上 侧 的 面积 一 定 小 于 0.01， 因 此 我 们 可 以 断定 ，p- 值 一 定 小 
于 0.01。Minitab 或 Excel 都 显示 出 p- 值 =0.000。 因 为 p- 值 小 于 =0.01， 所 以 我 们 拒绝 H, ， 并 上 且 可 以 断定 ， 在 学 生 
人 数 和 季度 销售 收入 之 间 存 在 一 个 显著 的 关系 ”。 对 于 简单 线性 回归 情形 ， 概 括 显 著 性 下 检验 的 步骤 如 下 。 








”对 简单 线性 回归 情形 ，F 检验 和 检验 给 出 了 同样 的 结果 。 
日 、 如 果 后 不 成 立 ，MSE 仍然 是 ?的 一 个 无 偏 估计 量 ， 而 MSR 高 估 wz。 如 果 夯 成 立 ，MSE 和 MSR 都 是 o? 的 无 偏 估计 量 ， 在 这 种 情 
况 下 ，MSR/MSE 的 值 应 接近 于 1。 
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在 第 .13 章 中 ， 我 们 已 经 详细 讨论 了 方差 分 析 (ANOVA) 问题 ， 并 且 指出 了 如 和 何 使 用 一 个 ANOVA 表 简 练 地 
概括 方差 分 析 的 运算 过 程 。 一 个 类 似 的 ANOVA 表 能 用 来 概括 回归 显著 性 的 下 检验 的 计算 结果 。 表 14-5 是 简单 线 
性 回归 ANOVA 表 的 一 般 形式 。 表 14-6 是 对 Armand 比 陛 饼 连 锁 店 例 子 进行 检验 计算 过 程 的 ANOVA 表 。 第 1 列 
中 的 回归 、 误 差 和 总 和 是 方差 的 三 个 来 源 ; 第 2 列 中 的 SSR、SSE 和 SST 是 对 应 的 三 个 平方 和 ; 第 3 列 是 这 些 平 
方 和 的 自由 度 ，SSR 为 1、SSE 为 n-2 和 SST 为 n-1;` 第 4 列 是 两 个 均 方 MSR 和 MSE 的 值 ; 第 5 列 是 统计 量 F= 
MSR/MSE 的 值 ， 第 6 列 是 对 应 于 第 5 列 的 下 值 的 p- 值 。 几 乎 所 有 回归 分 析 的 计算 和 机 打印 输出 都 包含 了 一 张 ANO- 
VA 表 ， 而 这 张 ANOVA 表 概括 了 显著 性 了 检验 的 步骤 ”。 





表 14-5 简单 线性 回归 ANOVA 表 的 一 般 形 式 表 14-6 Armand 比萨 饼 连 锁 店 例子 的 ANOVA 表 
方差 来 源 平方 和 ”自由 度 均 方 肖 PpP- 值 方差 来 源 平方 和 自由 度 均 方 本 P- 值 
癌 朋 SSR 人， NMSR = pM 回归 14200 1 于 14200 74.25 0000 
误差 SSE n-2 NMSE=> 交差 1530 8 -191.25 
总 和 SST -1 总 和 153730 9 


14. 5.5 关于 显著 性 检验 解释 的 几 点 注意 


拒绝 原 假设 Hu: B, =0 并 且 作 出 变量 x 和 y 之 间 存 在 显著 性 关系 的 结论 并 不 意味 着 我 们 能 作出 变量 x 和 y 之 间 
存在 一 个 因果 关系 的 绪论 。 只 有 当 分 析 人 员 有 着 理论 上 的 充分 证 据 ， 能 够 证 明 变 量 之 间 确 实 存在 因果 关系 ， 我 们 才 
能 认为 变量 之 间 存 在 这 样 一 个 因果 关系 的 结论 是 合理 的 。 在 Armand 比萨 饼 连 锁 店 例子 中 ,我们 能 作出 在 学 生 人 数 x 
和 季度 销售 收入 y 之 间 存 在 一 个 显著 关系 的 结论 ， 而 且 ， 估 计 的 回归 方程 y=60+5% 给 出 了 这 一 显著 关系 的 最 小 二 乘 
估计 结果 。 但 是 我 们 不 能 断定 学 生 人 数 * 的 变化 引起 了 季度 销售 收入 3 的 变化 ， 因 为 我 们 只 不 过 识别 了 一 个 统计 上 显 
著 的 关系 。 这 样 一 个 因果 关系 结论 的 合理 性 ， 一 方面 要 从 理论 上 给 予 证 实 ， 为 一 方面 还 要 依靠 分 析 人 员 出 色 的 判断 
能 力 。Armand 比萨 饼 连 锁 店 的 管理 人 员 觉 得 ; 学生 人 数 的 增长 很 可 能 是 季度 销售 收入 增长 的 一 个 原因 。 于 是 ， 显 著 
性 检验 的 结果 能 够 使 他 们 作出 在 学 生 人 数 和 季度 销售 收入 之 间 确 实 存在 一 个 因果 关系 的 结论 = 。 

另外 ， 由 于 我 们 只 不 过 是 拒绝 了 Ho: B, =0 和 证 实 了 变量 x 和 yy 之 间 和 存在 统计 显著 性 关系 ,但 这 并 不 能 让 我 
们 作出 变量 x 和 y 之 间 存 在 线性 关系 的 结论 。 我 们 仅仅 能 说 。y 
明 在 x 的 样本 观测 值 范 围 以 内 ,x 和 y 是 相关 的 ， 而 且 这 个 线 
性 关系 只 是 在 * 的 样本 观测 值 范围 里 ,解释 了 y 的 变异 性 的 
显著 部 分 。 图 14-7 说 明了 这 种 情形 。 显 著 性 检验 的 结果 要 求 
我 们 否定 原 假设 H,: B, =0， 并且 作出 了 x 和 y 之 间 存 在 显著 
关系 的 结论 ， 但 是 图 14-7 表明 ,在 x 和 3 之 间 的 关系 实际 上 
不 是 线性 关系 。 虽 然 在 x 的 样本 观测 值 范 围 以 内 ,估计 的 回 
归 方 程 ? = 如 +bx 给 出 了 变量 x 和 7 之 间 关 系 一 个 很 好 的 线性 
近似 ,但 对 这 个 范围 以 外 的 x 值 却 很 差 。 

假设 变量 x 和 y 之 间 存 在 一 个 显著 的 关系 ， 利 用 估计 的 





回归 方程 ， 对 于 x 的 样本 观测 值 范围 以 内 的 x 值 进行 预测 ， 国光 只 i 
我 们 应 该 是 完全 有 把 握 的 。 对 于 Armand 比萨 饼 连 锁 店 的 例 x 的 观测 值 的 范围 
子 ，x 的 样本 观测 值 的 取 值 范围 为 2 ~26。 除 非 有 理由 相信 ， 14-7“ 非 线性 关系 的 线性 近似 的 例子 


名 ”在 每 一 个 方差 分 析 表 中 ， 总 平方 和 是 回归 平方 和 与 误差 平方 和 之 和 ; 同时 ， 总 平方 和 的 自由 度 是 回归 平方 和 的 自由 度 当 误差 平方 和 
的 自由 度 之 和 。 
加 ”回归 分 析 能 用 来 识别 变量 之 间 是 如 何 相互 联系 的 ， 而 不 能 用 来 作为 变量 之 间 存 在 一 个 因果 关系 的 根据 : 
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超出 这 个 范围 模型 仍 是 适宜 的 ， 在 一 般 情 形 下 ， 在 自 变 量 x 的 取 和 值 范围 以 外 进行 预测 应 十 分 小 心间 慎 。 对 于 Armand 
比萨 饼 连 锁 店 的 例子 ， 因 为 我 们 已 经 知道 ， 在 0.01 显著 性 水 平 下 ， 回 归 关 系 是 显著 的 ， 所 以 对 于 有 2000 ~ 26 000 名 
学 生 的 校园 附近 的 连锁 店 ， 利 用 这 个 显著 的 回归 关系 来 预测 连锁 店 季 度 销售 收入 应 该 是 完全 有 把 握 的 。 
1， 由 于 我 们 在 第 14;4 节 中 对 误差 项 作出 了 一 些 假定 ， 才 使 我 们 在 本 节 中 进行 统计 显著 性 迷 验 成 为 可 能 。 必 
抽样 分 布 的 性 质 以 及 随后 的 1 检验 和 下 检验 都 是 从 这 些 假设 直接 得 出 的 。 
2. 不 能 把 统计 显著 性 与 实际 显著 性 搞 混 淆 了 。 当 样本 容量 非常 大 时 ， 对 于 小 的 的 值 我 们 也 能 得 到 在 统计 
上 是 显著 的 结果 。 在 这 种 情形 下 ， 要 作出 在 实际 中 存在 一 个 显著 性 关系 的 结论 ， 必 须 特别 1 小心。 
. 变量 % 和 y 之 间 存 在 一 个 线性 关系 的 显著 性 检验 ， 也 可 以 利用 样本 相关 系数 rm 来 完成 。 用 ps 表示 总 体 相 关 
系数 ， 提 出 的 假设 如 下 。 


1 


Hi:p,, =0 
H,:p,, 和 关 0 
如 采 sHo 被 拒绝 ， 那 么 就 能 作出 变量 x* 和 yy 之 间 存 在 一 个 显著 性 关系 的 结论 。 有 关 这 一 检验 的 详细 阅 
述 在 附录 14B 中 给 出 sa 不 过 ,利用 相关 系数 进行 显著 性 检验 与 本 节 前 面 介 绍 的 1 检验 入 检验 给 出 了 同样 
的 结果 5 所 以 ， 如 果 已 经 进行 了 检验 或 下 检验 ， 那 么 就 不 必 再 利用 相关 系数 进行 显著 性 检验 了 。 


个 Eee ee ^ 
"pA | LW F 
Dd [3 1 开 一 
-yy 有 E PP” 1 


方法 a, 在 Qa=0.05 的 显著 性 水 平 下 ,上 检验 是 否 表明 在 






24. 第 2 题 的 数据 如 下 。 价格 和 整体 评价 得 分 之 间 存 在 一 个 显著 的 关系 ? 
你 的 结论 是 什么 ? 


b, 在 a=0.05 的 显著 性 水 平 下 ， 利 用 下 检验 ， 检 
验 变 量 间 的 显著 关系 。 你 的 结论 是 什么 ? 


a. 利用 式 (14-15) 计算 均 方 误差 。 c. 对 这 些 数据 ， 作 出 ANOVA 表 。 
b. 利用 式 (14-16) 计算 估计 的 标准 误差 。 28. 对 第 8 题 的 等 级 评估 数据 ， 若 设 x = 执行 速度 的 能 
c. 利用 式 (14-18) 计算 b, 的 估计 的 标准 差 。 力 ,， y= 电子 交易 的 整体 满意 度 ， 得 到 的 估计 的 回 
d. 利用 上 检验 ,在 wE0.05 的 显著 性 水 平 下 ， 检 验 归 方 程 是 Y=0:2046+0.9077x。 在 a=0.05 的 显 
下 面 的 假设 : 著 性 水 平 下 ,检验 执 行 速 度 与 整体 满意 度 是 否 相 
H,:B, =0 关 。 作 出 ANONA 表 。 你 的 结论 是 什么 ? 
H,:B, 关 0 30. 参阅 第 5 题 ， 下 面 的 数据 曾 用 于 来 研究 ;在 一 般 情 
e. 利用 拨 检 验 ， 在 m=0.05 的 显著 性 水 平 下 ， 检 形 下 ， 较 高 价格 的 椭圆 机 是 否 具 有 较 高 的 总 体 评价 
验 (d) 中 的 假设 。 请 用 ANOVA 表 的 格式 表示 分 数 〈《 消 费 者 报告 》，2008 年 2 月 )。 车 设 w= 价 
所 得 到 的 结果 。 格 ( 美元),， y= 总体 评价 分 ， 得 到 的 估计 的 回归 
应 用 z , 方程 是 了 = 58. 158 + 0. 008 449x。 对 于 这 些 数 据 ， 
女 26. 在 第 18 题 中 ， 经 《消费 者 报告 》 测 试 的 6 个 立体 声 hh dh 
生机 的 检 烙 (美元 ) 和 整体 评价 得 分 的 数据 如 下 表 ”中 将 忆 体 评价 分 数 这 两 个 变量 之 间 存 在 一 个 
所 示 (Consumer Reports website，2012 年 3 月 5 日 )。 显著 的 关系 ? 













价格 。。 整体 评 价格 ”整体 评 分 
品牌 《美元 ) 价 得 分 ‖ 品牌。 (美元) 价 得 分 Precor 5. 31 3 700 87 
76 Key Fitness CG2 2 500 84 
Octane Fitness OQ37e 2 800 82 


LifeFitness XI Basic 1 900 74 
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( 续 ) 31. 对 于 第 20 题 中 的 10 辆 公路 比赛 用 自行 车 的 数据 ， 
0 可 肚 和 图 号 ”| 价格 美元 )”_ 部 入 评 价 分 数 车 设 x*= 重 量 ( 磅 ), y= 价格 (美元 )， 得 到 的 估计 
Nardic Track AudioStrider 990 1 000 73 的 回归 方程 是 ?=28 574 -1 439x。( Bicycling website， 
Schwian 430 pi 2012 年 3 月 8 日 ) 对 于 这 些 数据 ，SSE =7 102 922. 54， 
Vision Fitness X6100 1 700 68 


SST=52 120 800。 利 用 下 检验 ， 在 B=0.05 的 显著 


ProForm XP $20 Razor 600 55 
性 水 平 下 ， 确 定 自 行车 的 重量 和 价格 是 否 相 关 。 


14.6 应 用 估计 的 回归 方程 进行 估计 和 预测 


简单 线性 回归 模型 是 我 们 对 * 和 yy 之 间 关 系 所 做 的 一 个 假定 。 然 后 ， 我 们 利用 最 小 二 乘法 ， 得 到 了 估计 的 简 
单线 性 回归 方程 。 如 果 在 变量 x 和 y 之 间 存 在 一 个 显著 的 关系 ， 并且 判定 系数 表明 估计 的 回归 方程 对 样本 数据 的 
拟 合 是 一 个 好 的 拟 合 ， 那 么 我 们 就 能 利用 估计 的 回归 方程 进行 估计 和 预测 。 

在 Armand 比萨 饼 连 锁 店 的 例子 中 ,估计 的 回归 方程 是 Y=60 +5x。 在 第 14. 1 节 的 末尾 ， 我 们 曾经 说 过 ， 对 于 
* 的 一 个 特定 值 ，7 可 以 被 用 来 作为 y 的 平均 值 或 期 望 值 E(y) 的 一 个 点 估计 ， 或 者 7 也 可 以 被 用 来 作为 y 的 一 个 个 
别 值 的 预测 值 。 例 如 ， 在 Armand 比萨 饼 连锁 店 的 例子 中 ， 假 定 对 于 所 有 位 于 有 10 000 名 学 生 的 校园 附近 的 连锁 
店 ， 管 理 人 员 希 望 得 到 平均 季度 销售 收入 一 个 点 估计 。 利 用 估计 的 回归 方程 了 =60+5x， 对 于 x=10 (10 000 名 学 
生 ) ， 我 们 有 7 =60 +5 x10=110。 于 是 ， 对 于 位 于 有 10 000 名 学 生 的 校园 附近 的 所 有 连锁 店 ， 平 均 季度 销售 收入 
的 点 估计 值 是 110 000 美元 。 在 这 种 情况 下 ， 当 x=10 时 ,我 们 用 3 作为 y 的 平均 值 的 点 估计 值 。 

对 于 % 的 一 个 特定 值 ， 我 们 也 可 以 使 用 估计 的 回归 方程 来 预测 y 的 一 个 个 别 值 。 例 如 ， 在 有 10 000 名 学 生 的 
Talbot 大 学 附近 开 了 一 家 新 的 Armand 比萨 饼 连 锁 店 ,管理 人 员 希 望 预测 该 家 连锁 店 的 季度 销售 收入 ， 于 是 我 们 计 
算 Y=60+5 x10=110。 因 此 ， 对 这 家 新 的 连锁 店 ， 我 们 预测 的 季度 销售 收入 110 000 美元 。 在 这 种 情况 下 ， 当 x = 
10 时 ,我们 用 7 作为 y 的 一 个 新 观测 值 的 预测 值 。 

当 我 们 使 用 估计 的 回归 方程 来 估计 y 的 平均 值 或 者 来 预测 y 的 一 个 个 别 值 时 ， 显 然 估计 或 预测 都 依赖 于 x 的 
一 个 给 定 值 。 因 此 ， 当 我 们 在 更 深入 讨论 有 关 佑 计 和 预测 问题 时 ， 下 面 的 符号 将 有 助 于 问题 的 阐述 。 

%“ 家 示 自 变量 x 的 一 个 给 定 值 

y 表示 当 %=x" 时， 应 变量 y 的 可 能 值 ， 它 是 一 个 随机 变量 

E(y") 表示 当 x=x" 时 ; 应 变量 y 的 平均 值 或 期 望 值 

y》” =b。+bx 表示 当 #=z# 时 , E(y*") 的 点 估计 值 和 7 的 一 个 个 别 值 的 预测 值 

为 了 说 明 这 些 符 号 的 使 用 ， 假 设 对 于 所 有 位 于 有 10 000 名 学 生 的 校园 附近 的 Armand 比萨 饼 连 锁 店 ,我们 要 估计 
它们 的 平均 季度 销售 收入 。 在 这 种 情况 下 ,x”=10， 对 于 所 有 的 x”=10 的 Armand 比萨 饼 连 锁 店 ,，E(y" ) 表示 未 知 
的 平均 季度 销售 收入 。 于 是 , E(y* ) 的 点 估计 值 是 y” =60 +5 x10 =110， 或 110 000 美元 。 但 是 ， 使 用 这 些 符号 ， 
7 了 ”=110 也 是 有 10 000 名 学 生 的 Talbot 大 学 附近 一 家 新 开 的 Armand 比萨饼 连锁 店 的 季度 销售 收入 的 预测 值 。 


14. 6.1 区 间 估 计 


点 估计 值 和 预测 值 不 能 提供 有 关 估 计 和 (或 ) 预测 精度 的 任何 信息 。 因 此 我 们 必须 建立 置信 区 间 和 预测 区 间 。 
置信 区 间 (confidence interval) ， 它 是 对 于 *x 的 一 个 给 定 值 ，y 的 平均 值 的 一 个 区 间 估 计 。 预 测 区 间 (prediction inter- 
val) ， 它 是 对 于 x 的 一 个 给 定 值 ， 对 应 y 的 一 个 新 的 观测 值 ， 也 即 y 的 一 个 个 别 值 进行 预测 的 一 个 区 间 估 计 。 虽 然 对 
于 x 的 一 个 给 定 值 ，y 的 一 个 个 别 值 的 预测 值 和 y 的 平均 值 的 点 估计 值 是 相同 的 ， 但 是 这 两 种 情况 得 到 的 区 间 估 计 是 
不 同 的 。 我 们 将 要 说 明 ， 预 测 区 间 的 边际 误差 比较 大 。 “我们 首先 说 明 如 何 建立 一 个 y 的 平均 值 的 区 间 估 计 。 


14. 6. 2 y 的 平均 值 的 置信 区 间 
在 一 般 情况 下 ,我 们 不 能 期 望 估计 值 六 恰好 等 于 E(y" )。 如 果 我 们 想 要 作出 7“ 是 如 何 接近 真实 的 平均 值 


后 ”置信 区 间 和 预测 区 间 都 表明 了 回归 结 孙 的 精度 。 比 较 窗 的 区 间 表 明 有 一 个 比较 高 的 精度 。 


第 14 章 ”简单 线性 回归 333 


E(y" ) 的 推断 ， 我 们 将 不 得 不 估计 3" 的 方差 。 我 们 用 9- 表示 估计 的 六 的 方差 ， 它 的 计算 公 


,Me CW 
i 村 | 汪 (14-22) 
"的 估计 的 标准 差 由 式 (14-22) 的 平方 根 给 出 。 
pe (14-23) 





对 Armand 比萨 饼 连 锁 店 的 例子 ， 在 第 14.5 节 中 了 = 13.829 的 计算 结果 。 因 为 <* = 10, =14 和 
(x, -x)* =568， 我 们 利用 式 (14-23) 得 到 


13. 829 
置信 区 间 的 一 般 表达 式 如 下 。 


4. 95 








对 于 所 有 位 于 有 10 000 名 学 生 的 校园 附近 的 Armand 比萨 饼 连 锁 店 ， 我 们 利用 式 (14-24) ， 建 立 一 个 置信 水 
平 为 95% 的 平均 季度 销售 收入 E(y" ) 的 置信 区 间 估 计 。 对 ax2 =0.025， 自 由 度 为 上 -2=10 -2=8， 我们 利用 本 
书 配套 光盘 中 表 B-2 ， 得 到 jws =2.306。 因 为 =110， 边 际 误 差 1uosy' =2. 306 x4.95 =11. 415， 于 是 ， 置 信 水 平 
为 95% 的 置信 区 间 估 计 是 


110 + 11.415 
者 以 美元 为 单位 ， 对 于 所 有 位 于 有 10 000 名 学 生 的 校园 附近 的 Armand 比萨 饼 连 锁 店 ， 和 置信 水 平 为 95% 的 平 
均 季度 销售 收入 的 置信 区 间 是 110 000 美元 =11 415 美元 。 所 以 ， 当 学 生 炎 数 是 10 000 人 人 时， 置信 水 平 为 95% 的 
平均 季度 销售 收入 的 置信 区 间 是 (98 585 美元 ，121 415 美元 ) 。 
注意 ， 当 wx” -w=0 时 ， 由 式 (14-23) 给 出 的 7 的 估计 的 标准 差 最 小 。 在 这 种 情形 下 ,7 的 估计 的 标准 差 为 





这 就 是 说 ,每 当 我 们 取 x”=x 时 ， 就 能 得 到 y 的 平均 值 最 佳 的 或 是 最 精确 的 估计 量 。 事 实 上 ， x" 偏离 x 愈 远 ， 差 x 
-7 就 变 得 愈 大 ， 结 果 是 x 偏离 乱 还 ， 7 的 平均 值 的 置信 区 间 就 变 得 愈 宽 。 这 种 情形 如 图 14-8 所 示 。 

220 
200 
180 
160 
140 
120 
100 





o SSSE 


季度 销售 收入 1 000 美 元 ) 





0 2 4 683 斧 报 计 瑟 拘 和 如 私访 
学 生 人 数 (1 000 人 ) 


图 14-8 学 生 人 数 x 的 值 给 定时 平均 销售 收入 yy 的 置信 区 间 





日 ”这 个 区 间 估 计 的 边际 误差 是 tuasf。。 
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14. 6. 3 y 的 一 个 个 别 值 的 预测 区 间 


假设 ,我 们 不 对 位 于 有 10 000 名 学 生 的 校园 附近 的 所 有 Armand 比萨 饼 连 锁 店 估计 平均 季度 销售 收入 ， 我们 
只 希望 预测 位 于 有 10 000 名 学 生 的 Talbot 大 学 附近 的 一 家 新 的 Armand 比萨 饼 连锁 店 的 季度 销售 收入 。 正 如 前 面 
所 述 ， 对 应 于 自 变量 x 的 给 定 值 x”， 应 变量 y 的 值 y 的 预测 值 是 Y”= 6b。 + b,x"。 对 于 位 于 Talbot 大 学 附近 的 这 家 
新 的 连锁 店 ， 我 们 有 x”=10， 对 应 的 季度 销售 收入 的 预测 值 为 ?Y”=60 +5 x10 =110 或 110 000 美元 。 注 意 ， 对 于 
位 于 Talbot 大 学 附近 的 这 家 新 的 连锁 店 ， 该 店 的 季度 销售 收入 预测 值 与 位 于 有 10 000 名 学 生 的 校园 附近 的 所 有 
Armand 比萨 饼 连 锁 店 的 平均 销售 收入 的 点 估计 值 是 相同 的 。 

为 了 建立 预测 区 间 ， 让 我 们 首先 确定 ， 当 x =x 时 , y 的 一 个 预测 值 Y* 的 方差 。 这 个 方差 由 以 下 两 部 分 
组 成 。 

1. y" 关于 平均 值 E(y* ) 的 方差 ， 它 的 估计 量 由 s 给 出 。 

2. 利用 ?估计 EE(y* ) 的 方差 ， 它 的 估计 量 由 s$ 给 出 。 

当 x=x" 时 ， Ci 我 们 用 si 表示 y* 的 预测 值 ?* 的 估计 的 方差 ， 它 的 计算 公式 是 


3 de (14-25 ) 


因此 ，y 的 预测 值 y 的 估计 的 标准 差 为 
Sg = (14-26) 


在 Armand 比萨 饼 连 锁 店 的 例子 中 ， 对 于 位 于 有 10 000 名 学 生 的 Talbot 大 学 附近 的 这 家 新 的 连锁 店 ， 与 季度 
销售 收入 预测 值 相对 应 的 估计 的 标准 差 为 


22 时 
su = 13. 829 (i 9 V1.1282 = 14. 69 


预测 区 间 的 一 般 表达 式 如 下 。 








对 于 位 于 Talbot 大 学 校园 附近 的 这 家 新 的 Armand 比萨 饼 连锁 店 ， 利 用 te =to ws =2.306 和 s,s =14.69， 我 们 
能 建立 一 个 置信 水 平 为 95% 的 季度 销售 收入 的 预测 区 间 。 因 为 yY”= 110， 边际 误差 ts5w =2.306 x 14.69 = 
33. 875， 于 是 置信 水 平 为 95% 的 预测 区 间 是 


110 + 33. 875 
车 以 美元 为 单位 ， 这 个 预测 区 间 是 110000 美元 +33 875 美 元 ,或 者 是 (76 124 美元 ，143 875 美元 ) 。 注 意 ， 位 于 
Talbot 大 学 校园 附近 的 这 家 新 的 Armand 比萨 饼 连 锁 店 的 预测 区 间 ， 与 位 于 有 10 000 名 学 生 的 校园 附近 的 所 有 Armand 
比萨 饼 连锁 店 的 平均 季度 销售 收入 的 置信 区 间 (98 585 美元 ，121 415 美元 ) 相 比 ， 要 宽 一 些 。 二 者 的 区 别 说 明了 这 
样 一 个 事实 ， 我 们 能 比 预测 y ee y 的 平均 值 。 
当 自 变量 的 值 x" 越 接 近 x* 时， 置信 区 间 和 预测 区 间 就 越 精 确 。 置 信 区 间 和 较 宽 的 预测 区 间 的 一 般 形状 如 
图 14-9 所 示 。” 


后” 这 个 预测 区 间 的 边际 误差 是 zspwea。 
加 “在 一 般 情 况 下 ,置信 区 间 的 界限 和 预测 区 间 的 界限 都 是 弯曲 的 。 
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240 

220 
人 “置信 区 间 
预测 区 间 是 较 宽 的 区 间 二 的 界限 
二 140 
< 120 
100 预测 区 间 的 界限 

80 
60 在 x*=x 处 ， 

A 两 个 区 间 都 有 

引 最 小 的 宽度 =14 

0 





CC 2 68 VB WH.5 
学 生 人 数 (1 000 人 ) 


图 14-9 学 生 人 数 x 的 值 给 定时 销售 收入 y 的 置信 区 间 和 预测 区 间 


注释 和 评论 


对 于 一 个 新 的 观测 值 ， 预 测 区 间 用 来 预测 应 变量 的 值 。 作 为 一 个 例子 ， 考 虑 位 于 有 10 000 名 学 生 的 Talbot 大 
学 附近 的 一 家 新 的 Armand 比萨 饼 连 锁 店 ， 我 们 说 明 如 何 对 该 连锁 店 的 季度 销售 收入 建立 一 个 预测 区 间 。 实 际 上 ， 
对 于 表 14-1 Armand 比萨 饼 连 锁 店 的 样本 数据 ，% =10 并 不 是 其 中 一 个 连锁 店 的 学 生 人 数 ， 但 这 并 不 意味 着 不 能 对 
样本 数据 中 的 % 值 建立 预测 区 间 。 但 是 对 于 组 成 表 14-1 数据 的 10 家 比萨 饼 连锁 店 ， 对 其 中 任何 一 家 建立 季度 销 
售 收入 的 预测 区 间 都 是 毫 无 意义 的 ， 因 为 我 们 已 经 知道 了 每 一 家 连锁 店 的 季度 销售 收入 。 换 自 话 说 ， 预 测 区 间 仅 
对 新 的 事物 才 有 意 头 ， 在 这 种 情况 下 ， 是 对 应 于 一 个 x 的 特定 值 的 一 个 新 前 观 测 值 ， 而 这 个 x 的 特定 值 可 能 等 于 
或 也 可 能 不 等 于 样本 中 的 x 值 。 





RA Wy 


方法 间 。 请 作出 解释 : 为 什么 这 两 个 区 间 估 计 是 不 同 的 。 


六 32. 第 1 题 的 数据 如 下 。 应 用 : 
i 1 2 3 4 5 36. 在 第 7 题 中 ， 设 y= 对 新 客户 账户 的 年 销售 额 (1 000 
| i i 美元 ),，% = 工龄 (年)， 由 10 名 售货员 组 成 了 一 


个 随机 样本 数据 ， 得 到 估计 的 回归 方程 是 Y= 80 + 
dx 二 ET Dlr -BY =142, :=4 6098, 
a 对 于 所 有 有 9 年 工龄 的 售货员 ， 建 立 一 个 置信 


a 当 x=4 时 ， 利 用 式 (14-23) 估计 7 ”的 标准 差 。 
b. 当 %=4 时 ,利用 式 (14-24) 建立 一 个 y 的 期 


0 起 这 再 水 平 为 95% 的 平均 年 销售 额 的 置信 区 间 。 
CG, 水 二 ~ 一 i 1 
值 的 标准 差 b, 公司 正在 考虑 聘 请 有 9 年 工 冷 的 售货员 Tom 
d. 当 %=4 时 5 和 疝 娄 (14-27》 建立 一 个 y 的 一 Smart， 建 立 Tom Smart 的 一 个 置信 水 平 为 95%6 
个 个 别 值 的 置信 水 平 为 95% 的 预测 区 间 。 的 年 销售 额 的 预测 区 间 。 
34. 第 3 题 的 数据 如 下 。 c 讨论 你 在 a 和] 中 得 到 的 答案 的 不 同 之 处 。 


38. 参阅 第 21 题 ， 对 于 一 个 特定 的 制造 业 ， 利 用 产量 
和 总 成 本 的 数据 ， 得 到 估计 的 回归 方程 为 7 = 
1 246. 67 +7. 6x, 

当 %x=12 时 ， 建 立 置信 水 平 为 5% 的 置信 区 间 和 预测 区 a. 公司 的 生产 计划 表明 ， 下 个 月 必须 生产 500 件 
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产品 。 下 个 月 总 成 本 的 点 估计 值 是 多 少 ? c， 如 果 下 月 底 的 财务 成 本 报表 显示 ， 在 此 期 间 的 
b. 建立 一 个 置信 水 平 为 99% 的 下 个 月 总 成 本 的 预 实际 生产 成 本 是 6000 美元 。 公 司 管 理 人 员 对 下 
测 区 间 。 个 月 发 生 这 样 高 的 总 成 本 担忧 吗 ? 请 加 以 讨论 。 


14.7 计算 机 解法 


如 果 没 有 计算 机 的 帮助 ， 完 成 回归 分 析 的 计算 可 能 要 花费 相当 多 的 时 间 。 在 这 一 节 ， 我 们 将 讨论 如 何 利用 一 
个 计算 机 软件 包 ， 如 Minitab ， 去 减轻 计算 的 负担 。 

我 们 将 Armand 比萨 饼 连 锁 店 例子 中 的 学 生 人 数 和 季度 销售 收入 的 数据 输入 到 Minitab 的 工作 表 里 。 为 了 帮助 
解释 计算 机 的 输出 ， 自 变量 被 命名 为 “Pop”， 应 变量 被 命名 为 “Sales”。 对 于 Armand 比萨 饼 连 锁 店 的 例子 ， 利 用 
Minitab ， 我 们 得 到 了 如 图 14-10 所 示 的 计算 机 打印 输出 2 。 


回归 方程 是 销售 额 
Sales=60.0+5.00 Pop 


预测 量 系 标准 姜 ! 值 P- 值 
常数 60.000 9.226 6.50 0.000 
Pop 5.0000 0.5803 8.62 0.000 
S=13.8293 R-Sq=90.3% R-Sq(adj)=89.1% 

方差 分 析 


来 源 ”自由 度 平方 和 
回 是 1 


均 方 F p 
归 14200 14200 74.25 0.000 
误差 8 1 530 191 


总 计 9 15 730 
新 观测 结果 的 预测 值 


New Obs Fit SE Fit 95% CL 959% PL. 一 
1 110.00 4.95 (98.58, 121.42) (76.13, 143.87) Pr 





图 14-10 ”Armand 比萨 饼 连 锁 店 问题 的 Minitab 输出 


1，Minitab 打印 出 来 的 估计 的 回归 方程 为 “Sales =60.0+5.00 Pop”。 

2，Minitab 打印 出 来 的 表 显 示 了 系数 b, 和 bb 的 值 ， 每 一 个 系数 的 标准 差 ， 每 一 个 系数 除 以 它 的 标准 差 得 到 的 
1 值 以 及 与 + 检验 相 联 系 的 p- 值 。 因 为 产值 为 零 (保留 小 数 点 至 第 3 位 )， 所 以 样本 结果 表明 ， 应 拒绝 原 假设 
(Ho: B=0)。 男 一 种 可 供 选 择 的 检验 方法 是 ， 我 们 将 8. 62 (位 于 上 值 列 ) 与 一 个 适当 的 临界 值 进行 比较 。 这 种 t 
检验 的 步骤 我 们 已 经 在 第 14. 5 节 中 做 过 投 述 。 

3，Minitab 打印 出 来 的 输出 结果 不 但 给 出 了 估计 的 标准 差 “s = 13. 829 3”" ， 而 且 给 出 了 有 关 拟 合 优 度 的 信息 。 
注意 ,“R 一 sq =90.3%” 是 用 百分数 表示 的 判定 系数 。 数 值 “R -sq(adj) =89.1% ”将 在 第 15 章 中 讨论 。 

4. ANOVA 表 被 打印 在 标题 “Analysis of Variance” 的 下 面 。Minitab 用 横行 标题 “Residual Error” 表 示 变 异 的 误差 
来 源 。 注 意 ,，“DF” 是 自由 度 的 缩写 ，MSR 为 14 200，MSE 为 191。F 值 是 这 两 个 值 之 比 ,为 74. 了 5， 对 应 的 p- 值 为 
0.000。 因 为 户 值 为 零 (保留 小 数 点 至 第 3 位 ) ， 所 以 我 们 可 以 断定 ,“Sales” 和 “Pop” 之 间 存 在 一 个 统计 上 显著 的 关系 。 

5. 期 望 销售 收入 的 置信 水 平 为 %5 狗 的 置信 区 间 估 计 ， 以 及 在 有 10000 名 学 生 的 校园 附近 的 一 家 个 别 的 
Armand 比 萨 饼 连锁 店 的 销售 收入 的 置信 水 平 为 95% 的 预测 区 间 估 计 ， 打 印 在 ANOVA 表 的 下 面 。 正 如 我 们 在 第 
14. 6 节 中 已 经 给 出 的 那样 ， 置 信 区 间 是 (98. 58 ，121. 42) ， 预 测 区 间 是 (76. 13 ，143. 87)。 


日 由 Minitab 生成 的 输出 的 必要 步骤 在 本 书 所 附 光 盘 附 录 14C 中 给 出 。 






方法 


六 40. 


42. 


若 % 表 示 公 寓 住 宅 的 年 租金 (1 000 美元 ) ，y 表示 
该 公寓 住宅 的 销售 价格 (1 000 美元 ) ， 一 家 房 地 
产 公司 的 营销 部 门 对 x 和 yy 之 间 的 关系 进行 回归 分 
析 。 采 集 了 近期 出 售 的 一 些 公寓 住宅 的 数据 ， 得 到 
的 计算 机 输出 如 下 。 


回归 方程 是 人 =20. 0 +7.21x 


预测 量 系数 标准 差 ; 值 
常数 20. 000 3. 221 3 6.21 
x 7.210 1.3626 5. 29 
方差 分 析 
来 源 自由 度 平方 和 
回归 1 41587.3 
误差 7 
总 计 8 51 984. 1 

a. 样本 中 有 多 少 尽 公寓 住宅 ? 

b. 写 出 估计 的 回归 方程 。 

c. 5 的 值 是 多 少 ? 

d. 利用 下 统计 量 ， 在 a=0.05 的 显著 性 水 平 下 ， 

检验 x 和 7y 之 间 关 系 的 显著 性 。 


对 年 租金 为 50 000 美元 的 一 幢 公 寓 住 宅 ， 估 计 

它 的 销售 价格 。 

著 回 归 模 型 的 x 表示 在 一 家 分 店 中 工作 的 售货员 的 

人 数 ，y 表示 这 家 分 店 的 年 销售 额 (1 000 美元 ) ， 

对 有 关 数 据 进行 回归 分 析 的 计算 机 输出 如 下 。 

a 写 出 估计 的 回归 方程 。 

b. 对 这 一 问题 进行 回归 研究 时 涉及 多 少 家 分 店 ? 

c. 计算 下 统计 量 ， 在 w=0.05 的 显著 性 水 平 下 ， 
检验 % 与 y 之 间 关 系 的 显著 性 。 

d. 若 孟 菲 斯 分 店 有 12 名 售货员， 预测 该 分 店 的 年 

销售 收入 。 


回归 方程 是 = 80. 0 +50. 00x 


史 


预测 量 系数 标准 差 t 值 
常数 80.0 11. 333 7. 06 
x 50.0 5. 482 9. 12 
方差 分 析 

来 源 自由 度 平方 和 均 方 
回归 1 6828.6 6828.6 
误差 28 2 298. 8 82.1 
总 计 29 9 127.4 
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44. 汽车 大 赛 、 优 质 驾 校 以 及 由 汽车 俱乐部 经 营 的 司 


机 培训 计划 爱人 们 喜爱 的 程度 持续 增长 。 所 有 这 
些 活动 的 参加 者 都 被 要 求 必须 佩戴 经 Snell 纪念 基 
金 会 认证 的 头盔 。Snell 纪念 基金 会 是 一 个 非 营利 
性 的 组 织 ， 该 基金 会 致力 于 头盔 安全 标准 的 研究 、 
培训 、 测 试 和 新 产品 的 开发 。Snell 纪念 基金 会 的 
额定 专业 头盔 “SA” (Sports Application ， 体 育 运 
动 专用 ) 是 专门 为 赛车 运动 设计 的 ， 这 种 头盔 有 具 
有 极 强 的 耐 冲击 性 和 高 防火 性 能 。 在 选择 头盔 时 ， 
一 个 关键 的 因素 是 头盔 的 重量 ， 因 为 较 轻 的 头盔 
往往 对 颈 部 的 压力 较 小 。 下 表 是 18 个 SA 头盔 的 重 
量 和 价格 的 统计 数据 (SoloRacer website，2008 年 
4 月 20 日 )。 
a. 以 重量 为 自 变 量 ， 绘 制 出 这 些 数据 的 散 点 图 。 
b. 在 头盔 的 重量 和 价格 这 两 个 变量 之 间 显 现 出 什 
么 关系 吗 ? 
c. 求 出 估计 的 回归 方程 ， 使 这 个 方程 在 头盔 的 重 
量 已 知 时 ， 能 用 来 预测 头盔 的 价格 。 
d4 在 a=0.05 的 显著 性 水 平 下 ， 检 验 这 两 个 变量 
之 间 关 系 的 显著 性 。 
e. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 请 作 
出 解释 。 


头盔 重量 ( 冶 司 ) ”价格 (美元 ) 


Pyrotect Pro Airflow 64 248 
Pyrotect Pro Airflow Graphics 64 278 
RECi Full Face 64 200 
RaceQuip RidgeLine 64 200 
HJC AR-10 58 300 
HJC S$i-12 47 700 
HIC HX-10 49 900 
Impact Racing Super Sport 59 340 
Zamp FSA-] 66 199 
Zamp RZ-2 58 299 
Zamp RZ-2 Ferrari 58 299 
Zamp RZ-3 Sport 52 479 
Vamp RZ-3 Sport Painted 52 479 
Bell M2 63 369 
Bell M4 62 369 
Bell M4 Pro 54 559 
G Force Pro Force | 63 250 
G Force Pro Force 1 Grafx 63 280 
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换言之 , 第 i 次 观测 的 残 差 是 利用 估计 的 回归 方程 去 预测 应 变量 的 值 y% 而 产生 的 误差 。 对 Armand 比萨 饼 连 
锁 店 的 例子 ， 残 差 的 计算 列 示 在 表 14-7 中 。 应 变量 的 观测 值 在 第 二 列 ， 利 用 估计 的 回归 方程 了 =60 +5x 得 到 应 变 
量 的 预测 值 在 第 三 列 ， 对 应 的 残 差 在 第 四 列 。 对 这 些 残 差 进 行 分 析 将 帮助 我 们 确定 ， 关 于 回归 模型 作出 的 那些 候 
定 是 否 成 立 。 


表 14-7 Armand 比萨 饼 连 锁 店 例子 的 残 差 


学 生 人 数 为 。。 销售 收入 人 由。 焉 共和 | 学 生 人 数 加 。 销售 收入 “DE YX 现 关 万 - 
2 58 70 =12 16 137 140 -3 
6 105 90 15: 20 157 160 -3 
8 88 100 12 20 169 160 9 
8 118 100 18 2 149 170 一 2 
12 1 17 120 一 3 26 202 190 12 


现在 让 我 们 重 温 一 下 关于 Armand 比萨 饼 连 锁 店 例子 的 回归 假定 。 假 设 简 单线 性 回归 模型 为 
y=po +Bix+e ». (14=29) 
这 个 模型 表示 ， 我 们 假定 季度 销售 收入 -(y) 是 学 生 人 数 (x) 的 一 个 线性 函数 如 上 一 个 误差 项 s。 在 第 14. 4 节 
中 ,我们 对 误差 项 = 作出 了 以 下 假定 。 
lL: BS(a)=0。 
2. 对 所 有 的 * 值 ，s 的 方差 都 是 相同 的 ， 用 5 表示 。 
3. & 的 值 是 相互 独立 的 。 
4. 误差 项 s 服从 正 态 分 布 。 
这 些 假 定 对 于 利用 上 检验 和 下 检验 来 确定 x 和 > 之 间 的 关系 是 否 显著 ， 以 及 对 于 在 第 14.6 节 申 所 介绍 的 置信 
区 间 估 计 和 预测 区 间 估 计 ， 都 提供 了 理论 上 的 依据 。 如 果 关 于 误差 项 s 的 假定 显得 不 那么 可 靠 ， 那 么 有 关 回 归 关 
系 的 显著 性 假设 检验 和 区 间 估 计 的 结果 可 能 会 站 不 住 脚 。 
残 差 提 供 了 有 关 误 差 项 < 的 最 重要 的 信息 ， 因 此 ， 残 差分 析 是 确定 误差 项 es 的 假定 是 否 成 立 的 重要 步 又。 许 
多 残 差分 析 都 是 在 对 残 差 图 形 的 仔细 考察 基础 上 完成 的 。 在 本 节 ， 我 们 将 讨论 以 下 几 种 残 差 图 。 
1. 关于 自 变量 x 的 值 的 残 差 图 。 
2. 关于 应 变量 的 预测 值 y 的 残 差 图 。 
3. 标准 化 残 差 图 。 
4. 正 态 概率 图 。 


14. 8. 1 ”关于 x 的 残 差 图 


关于 自 变量 * 的 残 差 图 (residual plot) 的 做 法 是 ， 用 水 平 轴 表示 自 变量 的 值 ， 用 纵 轴 表示 对 应 的 残 差 值 。 每 
个 残 差 都 用 图 上 的 一 个 点 来 表示 。 对 于 每 一 个 点 ， 第 一 个 坐标 由 x, 的 值 给 出 ,第 二 个 坐标 由 对 应 的 第 i 个 残 差 


日 ” 残 差分 析 (residual analysis) 是 确定 假定 的 回归 模型 是 否 适 宜 的 重要 方法 。 
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y =- 信 的 值 给 出 。 对 于 Armand 比萨 饼 连锁 店 的 例子 ， 根 据 表 14-7 中 的 数据 ， 可 以 作出 关于 x 的 残 差 图 。 对 应 有 = 
2 和 7 -六 = -12， 第 一 个 点 的 坐标 是 (2，-12); 对 应 =6 和 7 -六 =15， 第 二 个 点 的 坐标 是 (6，15)， 等 
等 。 图 14-11 是 得 到 的 残 差 图 。 yh SR 

在 对 这 个 残 差 图 的 结果 进行 解释 之 前 ， 让 我 们 首先 考虑 在 *” 
任意 一 个 残 差 图 中 可 能 观测 到 的 某 些 一 般 的 图 形 模式 。 在 
图 14-12 中 给 出 了 三 个 例 季 =。 如 果 假 定 对 所 有 的 * 值 ，2 的 方差 
都 是 相同 的 ， 并 且 假 定 描述 变量 * 和 y 之 间 关 系 的 回归 模型 是 
恰当 的 ， 那么 残 差 图 给 出 的 一 个 总 体 印象 是 ， 所 有 的 散 点 都 应 
落 在 一 条 水 平 带 中 间 ， 如 图 14-12a 所 示 。 但 是 ， 如 果 对 所 有 的 。” -10 
x 值 ，e 的 方差 是 不 相同 的 ， 例 如 对 于 较 大 的 x 值 ， 关 于 回归 线 
的 变异 性 也 较 大 ， 如 图 14-12b 所 看 到 的 那样 。 在 这 种 情形 下 ， -20 
就 违背 了 s 有 一 个 相同 的 常数 方差 的 假定 。 另 一 种 可 能 的 残 差 C2 4 B01 16 1 20 3 24 26” 





图 如 图 14-12c 所 示 。 在 这 种 情形 下 y 我 们 的 结论 是 ， 假定 的 图 14-11 Armand 比萨 饼 连 锁 店 的 关于 
归 模 型 不 能 恰当 地 描述 变量 之 间 的 关系 。 这 时 我 们 应 考虑 曲线 自 变 量 * 的 残 差 图 


归 模 型 或 者 多 元 回归 模型 。 





by) 

图 14-12 三 种 回归 研究 的 残 差 图 

现在 让 我 们 回 到 图 14-11 所 示 的 Armand 比萨 饼 连 锁 店 的 残 差 图 。 这 些 残 差 看 来 好 像 与 图 14-12a 中 的 水 平 型 
的 图 形 很 相似 因此， 我 们 的 结论 是 ， 残 差 图 并 没有 提供 足够 的 证 据 ， 使 我 们 对 Armand 化 萨 饼 连 锁 店 回归 模型 
所 作 和 的 假定 表示 怀疑 。 这 时 ,我 们 有 信心 作出 结论 ，Armand 比萨 饼 连 锁 店 的 简单 线性 回归 模型 是 合理 的 。 

在 对 残 差 图 进行 有 效 的 解释 时 ， 经 验 和 好 的 判断 能 力 永 远 是 关键 因素 。 一 个 残 差 图 与 在 图 14-12 中 所 看 到 的 
三 种 类 型 之 一 恰好 完全 一 致 的 情形 是 很 少见 的 。 然 而 ， 在 弄 清 楚 合理 的 残 差 图 形 模式 与 显示 模型 的 假定 应 该 受到 
质疑 的 残 差 图 形 模式 之 间 的 差别 时 ， 经 常 从 事 回 归 研 究 和 经 常 考察 残 差 图 的 分 析 人 员 将 成 为 专家 。 在 这 里 介绍 的 
残 差 图 是 用 来 评价 回归 模型 假定 有 效 性 的 一 种 方法 。 


14. 8. 2 ”关于 3 的 残 差 图 
为 一 种 残 差 图 的 做 法 是 ， 用 水 平 轴 表 示 应 变量 的 预测 值 7”， 用 凑 轴 表示 对 应 的 残 差 值 。 每 个 残 差 都 用 图 上 的 

一 个 点 来 表示 。 对 于 每 一 个 点 ， 第 一 个 坐标 由 的 值 给 出 ， 第 
二 个 坐标 由 对 应 的 第 i 个 残 差 y, -六 的 值 给 出 。 对 于 Armand 
比 芒 饼 连 锁 店 的 例子 ， 根据 表 14-7 中 的 数据 ， 对 应 % =70 和 
和 -为 = -12， 第 一 个 点 的 坐标 是 (70，- 12); 对 应 六 =90 
和 y, — Pe 第 二 个 点 的 坐标 是 (90，15) ， 等 等 。 图 14-13 是 
得 到 的 残 差 图 。 注 意 ， 这 个 残 差 图 的 图 形 模式 与 关于 自 变量 x 
的 残 差 图 的 图 形 模式 是 相同 的 。 它 不 是 让 我 们 对 模型 的 假定 产 
生 怀疑 的 那 种 图 形 模 式 。 对 于 简单 线性 回归 ， 关 于 % 的 残 差 图 





60 80 100 120 140 160 180 


和 关于 ?的 残 差 图 ， 这 两 个 图 给 出 了 同样 的 图 形 模式 。 对 于 多 0 
元 回归 分 析 ， 因 为 有 一 个 以 上 的 自 变量 ， 所 以 关于 $ 的 残 差 图 预测 值 ? 的 残 差 图 
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有 着 更 广泛 的 应 用 。 


14. 8. 3 标准 化 残 差 
许多 由 计算 机 软件 包 生 成 的 残 差 图 都 利用 了 残 差 的 标准 化 形式 。 就 像 我 们 在 前 面 几 章 中 看 到 的 那样 ， 一 个 

随机 变量 减 去 它 的 平均 值 ， 然 后 再 除 以 它 的 标准 差 ， 就 得 到 了 一 个 标准 化 的 随机 变量 。 由 于 最 小 二 乘法 的 性 

质 ， 残 差 的 平均 值 是 零 。 于 是 ， 每 个 残 差 只 要 简单 地 除 以 它 的 标准 差 ， 就 得 到 了 标准 化 残 差 (standardized 

residual ) 。 

我 们 能 够 证 明 ， 第 i 个 残 差 的 标准 差 取决 于 估计 的 标准 误差 和 对 应 的 自 变 量 x, 的 值 。 











注意 ， 因 为 在 式 〈14-30) 中 出 现 h， 所 以 这 就 表明 第 i 个 残 差 的 标准 差 依赖 于 <。 一 旦 计算 出 每 个 残 差 的 标 
准 差 ， 我 们 就 能 将 每 个 残 差 除 以 它 所 对 应 的 标准 差 ， 计 算出 标准 化 残 差 。 
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表 14-8 给 出 了 Armand 比萨 饼 连锁 店 例子 的 标准 化 残 差 的 计算 过 程 ，s = 13. 829 是 以 前 计算 的 结果 。 图 14-14 
是 关于 自 变量 * 的 标准 化 残 差 图 。 


表 14-8 Armand 比萨 饼 连 锁 店 的 标准 化 残 差 的 计算 





连锁 店 / |， ”省 Xi =X (x 一列) h, Sy =F 外 一 入 标准 化 残 差 
(为 = 区 
TP 2™ -12 144 0.2535 0.3535 11. 1193 _12 -1.0792 
2 6 -8 64 0.1127 0.2127 12. 2709 15 1. 222 4 
3 8 -6 36 ”0.0634 0.1634 12. 649 3 ~ 说 -0.9487 
4 8 -站 36 0.063 4 0.163 4 12.6493 18 1.4230 
< 说 -2 4 0.0070 0.1070 13. 068 2 Ee -0. 229 6 
6 16 2 4 0.0070 0. 1070 13. 068 2 < -0.2296 
7 20 6 36 0.063 4 0. 163 4 12. 649 3 -0.2372 
8 20 6 36 0. 063 4 0.163 4 12. 6493 9 0.711 5 
9 22 8 64 0.1127 0.2127 12. 2709 = = Wl 
10 26 12 144 0. 2535 0.3535 11. 1193 12 1.079 2 
合计 568 
注 : 残 差 数 值 的 计算 已 在 表 14-7 中 完成 。 
日 ”这 个 表达 式 实际 上 给 出 了 第 i 个 残 差 的 标准 差 的 一 个 佑 计 ， 因 为 我 们 用 : 兰 代 了 cr。 


日 被 称 为 第 二 次 观测 的 杠杆 率 。 当 我 们 在 第 14.9 节 中 考虑 有 影响 的 观测 值 时 ， 将 对 杠杆 率 做 进一步 的 讨论 。 
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标准 化 残 差 图 能 对 随机 误差 项 e 服从 正 态 分 布 的 假定 提供 一 种 直观 的 认识 。 如 果 这 一 假定 被 满足 ,那么 标准 
化 残 差 的 分 布 看 起 来 也 应 该 服从 一 个 标准 正 态 概率 分 布 5。 于 也 
是 ， 当 查看 标准 化 残 差 图 时 ， 我 们 应 该 期 望 看 到 ， 大约 有 
95% 标 准 化 残 差 介 于 -2 ~ +2。 从 图 14-14 中 我 们 看 到 ,对 于 员 
Armand 比萨 饼 连锁 店 例子 ， 所 有 的 标准 化 残 差 都 落 在 -2~ + 急 。 
2。 所 以 ， 根 据 对 标准 化 残 差 图 的 分 析 ， 我们 没有 理由 怀疑 = 竹 
服从 正太 分布 的 假定 。S -1 
由 于 回归 分 析 要 求 我 们 计算 估计 值 ?， 残 差 和 标准 化 残 差 ， 
而 这 些 计算 又 十 分 烦琐 费力 ， 所 以 大 部 分 统计 软件 包 ， 作 为 
可 供 选 择 的 回归 分 析 输 出 ， 都 提供 了 这 些 值 的 计算 结果 。 因 02468101211 1 22 2 2 





- 图 14-14 ”Armand 比萨 饼 连锁 店 的 关于 
此 ， 我 们 能 很 容易 地 得 到 残 差 图 。 对 于 较 大 型 的 回归 分 析 问 pa 
题 ， 为 了 作出 我 们 在 本 节 讨 论 的 残 差 图 ， 计算 机 软件 包 是 唯 
一 的 实用 工具 。 


14. 8. 4 “” 正 态 概率 图 


确定 误差 项 = 服从 正 态 分 布 的 假定 成 立 的 另 一 个 方法 是 正 态 概率 图 (normal probability plot) 。 为 了 说 明 如 何 
绘制 一 张 正 态 概率 图 ,我们 首先 介绍 正 态 分 数 的 概念 。 

假设 我 们 从 一 个 平均 值 为 0， 标 准 差 为 1 的 标准 正 态 概 率 分 布 中 随机 地 抽取 10 个 数值 ， 并 将 这 一 抽样 过 程 反 
复 进行 ,然后 把 每 个 样本 中 的 10 个 数值 按 从 小 到 大 的 顺序 排列 。 现 在 我 们 仅 考虑 每 个 样本 中 最 小 的 数值 。 在 反 
复 进行 的 抽样 过 程 中 得 到 的 最 小 值 是 一 个 随机 变量 ， 被 称 为 一 阶 顺 序 统计 量 。 

统计 学 家 已 经 证 明 ， 来 目标 准 正 态 概 率 分 布 的 容量 为 10 的 样本 ， 一 阶 顺 序 统 计量 的 期 望 值 为 -1. 535。 这 个 期 
望 值 被 称 为 正 态 分 数 。 对 于 样本 容量 n= 10 的 情形 ， 有 10 个 顺序 统计 量 和 10 个 正 态 分 数 ( 见 表 14-9) 。 一 般 地 
说 ， 如 果 我 们 有 一 个 由 个 观测 值 组 成 的 数据 集 ， 那么 就 有 个 顺序 统计 量 和 个 正 态 分 数 。 


表 14-10 Armand 比萨 饼 连锁 店 的 正 态 分 数 
表 14-9 n=10 的 正 态 分 数 和 排 好 顺序 的 标准 化 残 差 


顺序 统计 量 正 态 分 数 顺序 统计 量 正 态 分 数 排 好 顺序 的 


标准 化 残 差 


正 态 分 数 





现在 让 我 们 说 明 ， 对 于 Armand 比萨 饼 连锁 店 的 例子 ， 怎 样 利用 10 个 正 态 分 数 去 确定 标准 化 残 差 服从 标准 正 
态 概率 分 布 。 我 们 从 表 14-8 中 的 10 个 标准 化 残 差 的 排序 着 手 。 我 们 将 10 个 正 态 分 数 和 10 个 排 好 顺序 的 标准 化 
残 差 放 在 一 起 ， 如 表 14-10 所 示 。 如 果 正 态 性 的 假定 被 满足 ， 那 么 最 小 的 标准 化 残 差 应 接近 最 小 的 正 态 分 数 ， 下 
一 个 最 小 的 标准 化 残 差 应 接近 下 一 个 最 小 的 正 态 分 数 ， 依 此 类 推 。 如 有 果 我 们 用 水 平 轴 表 示 正 态 分 数 ， 用 纵 轴 表示 
对 应 的 标准 化 残 差 做 一 张 散 点 图 ， 如 果 标 准 化 残 差 近似 服从 正 态 分 布 ， 那么 在 图 上 标 出 的 这 些 散 点 ， 应 密集 围绕 


日 ”因为 我 们 用 :替代 式 (1430) 中 的 oc， 所 以 在 严格 的 意义 上 ， 标 准 化 残 差 的 概率 分 布 ， 不 再 服从 正 态 分 布 。 但 是 在 许多 回归 研究 
中 ， 只 要 样本 容量 充分 大 ， 标 准 化 残 差 的 概率 分 布 将 能 很 好 地 近似 服从 正 态 分 布 。 
台 ”稍微 偏离 正 态 性 ， 但 不 会 对 在 回归 分 析 中 应 用 的 统计 答 验 产生 很 天 的 影响 。 
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在 通过 坐标 轴 原 点 的 45 "直线 附近 。 这 样 的 一 张 散 点 图 被 称 为 正 态 概率 图 。 

图 14-15 是 Armand 比萨 饼 连 锁 店 例子 的 正 态 概率 图 。 判 
断 力 将 帮助 我 们 确定 ， 从 图 上 看 到 的 这 些 散 点 与 45" 直 线 偏 离 
的 模式 ， 对 于 作出 标准 化 残 差 是 否 来 自 一 个 标准 正 态 概率 分 布 
的 结论 已 经 足够 了 。 在 图 14-15 中 我 们 看 到 ， 这 些 散 点 都 紧密 
地 聚集 在 45° 直 线 附近 。 因 此 ， 我们 能 够 得 出 结论 随机 误差 
项 服从 标准 正 态 概率 分 布 的 假定 是 合理 的 。 一 般 地 说 ， 较 多 的 
点 紧密 地 聚集 在 45" 直 线 附近 是 支持 正 态 性 假定 的 有 力 证 据 。 
在 正 态 概 率 图 上 ， 如 果 相 对 于 45" 直 线 有 较 大 的 弯曲 ， 就 是 残 
差 不 是 来 自 一 个 标准 正 态 概率 分 布 的 证 据 。 正 态 分 数 和 与 此 相 
联系 的 正 态 概率 图 ， 能 很 容易 地 利用 统计 软件 包 ， 如 Minitab 
得 到 。 =2 =1 正 态 分 数 十 ] +2 

注释 和 评论 图 14-15 Armand 比萨 饼 连 锁 店 的 正 态 概率 图 





1. 我 们 利用 残 差 和 正 态 概率 图 来 证 实 一 个 回归 模型 的 假定 。 如 果 我 们 的 检查 表明 一 个 或 几 个 假定 是 不 可 
靠 的 ， 那 么 我 们 就 应 该 考虑 一 个 不 同 的 回归 模型 或 者 一 个 数据 变换 。 当 这 些 假 定 不 成 立时 ， 一 个 合理 
适当 的 修正 行为 必须 在 好 的 判断 力 的 基础 上 才能 作出 ， 来 自 有 经 验 的 统计 学 家 的 建议 可 能 是 宝贵 的 
意见 。 

2. 统计 学 家 用 来 证 实 回归 模型 的 假定 成 立 的 主要 方法 是 残 差 分 析 。 即 使 没有 发 现 假定 被 违背 ， 但 是 这 并 不 一 
定 意味 着 ， 模 型 将 能 给 出 一 个 好 的 预测 。 然 而 ， 如 果 有 补充 的 统计 检验 支持 显著 性 结论 ， 并 且 有 比较 大 的 
判定 系数 ， 那 么 我 们 利用 估计 的 回归 方程 应 该 能 够 得 到 好 的 估计 值 和 预测 值 。 
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we, 


a 对 这 些 数据 ， 建 立 估计 的 回归 方程 。 
b. 绘制 出 残 差 图 。 关 于 误差 项 的 假定 你 觉得 被 满 
足 了 吗 ? 
应 用 
48. 参阅 第 7 题 ， 我 们 已 经 得 到 了 一 个 关于 售货员 的 工 
龄 和 年 销售 额 的 估计 的 回归 方程 。 
a， 对 这 个 问题 ， 计 算 残 差 并 绘制 出 残 差 图 。 
b. 根据 残 差 图 ， 关 于 随机 误差 项 的 假定 你 觉得 合 
理 吗 ? 





14.9 残 差 分 析 : 异常 值 和 有 影响 的 观测 值 

在 第 14. 8 节 中 ， 我 们 已 经 说 明了 如 何 利用 残 差 分 析 来 判定 ， 什 么 时 候 会 发 生 违 背 回归 模型 假定 的 情形 。 在 这 
一 节 中 ， 我 们 将 讨论 在 建立 估计 的 回归 方程 时 ， 如 何 利用 残 差 分 析 去 识别 异常 的 观测 值 或 特别 有 影响 的 观测 值 。 
本 节 将 详细 论述 ， 当 出 现 这 样 的 观测 值 时 ， 我 们 应 该 采取 的 一 些 措施 。 
14. 9. 1 “检测 异常 值 

图 14-16 是 一 个 只 有 一 个 异常 值 (outlier) 的 数据 集 的 散 点 图 ， 这 个 异常 值 是 一 个 数据 点 〈 观 测 值 ) ， 它 与 其 
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余 的 数据 点 所 显示 的 趋势 不 相 吻 合 。 异 常 值 表示 观测 值 是 可 颖 的， 并 且 值 得 我 们 认真 地 检查 。 这 些 异 常 值 可 能 代 
表 了 错误 的 数据 ， 倘 车 如 此 ， 我 们 应 该 修正 这 些 数据 这 些 异常 值 也 可 能 意 > 
味 着 出 现 了 违背 模型 假定 的 情形 ， 倘 若 如 此 ， 我 们 应 该 考虑 其 他 形式 的 模 
型 ， 最 后 ， 这 些 异 常 值 可 能 仅仅 是 由 于 随机 因素 的 影响 而 产生 的 不 同 寻常 的 
数值 ， 在 这 种 情形 下 ， 我 们 应 该 保留 这 些 异 常 值 。 

为 了 说 明 检测 异常 值 的 过 程 ， 我们 考虑 表 14-11 中 的 数据 集 ， 图 14-17 
是 该 数据 集 的 散 点 图 。 除 了 第 四 个 观测 值 (x, =3，” =75) 以 外 ， 散 点 图 
的 形状 明显 地 提示 我 们 ， 这 些 数据 点 存在 一 个 负 线 性 关系 。 事 实 上 ， 根 据 散 
点 图 上 其 余数 据点 的 散布 格局 ， 我 们 可 以 预期 y, 要 小 得 多 ， 因 此 我 们 将 对 
应 的 观测 值 确认 为 是 一 个 异常 值 。 对 于 简单 线性 回归 的 情形 ， 只 要 简单 地 检 
查 散 点 图 ， 人 们 往往 就 能 探 明 异常 值 。 

表 14-11 说 明 异 常 值 影 响 的 数据 集 
Xx yi Xi yi 


45 3 45 








By wh mt 
tA 
Le 
人 
tn 


14-17 异常 值 数据 集 的 散 点 图 


标准 化 残 差 也 能 用 于 识别 异常 值 。 如 果 一 个 观测 值 与 散 点 图 上 其 余数 据点 的 散布 格局 有 一 个 大 的 偏离 〈 例 
如 ， 图 14-16 中 的 异常 值 )， 那 么 对 应 的 标准 化 残 差 的 绝对 值 也 将 是 大 的 。 许 多 计算 机 软件 包 能 自动 地 识别 标准 化 
残 差 绝对 值 大 的 观测 值 。 对 表 14-11 的 数据 进行 回归 分 析 的 Minitab 输出 如 图 14-18 所 示 。 图 14-18 倒数 第 二 行 的 
Minitab 输出 给 出 了 第 四 个 观测 值 的 标准 化 残 差 是 2,67。Minitab 在 输出 的 “Unusual Obseryation” (与 众 不 同 的 观 
测 值 ) 部 分 ， 提 供 一 个 标准 化 残 差 小 于 -2 或 者 大 于 +2 的 每 个 观测 值 列表 。 在 这 种 情形 下 ， 这 个 观测 值 被 单独 
打印 在 一 行 ， 并 在 标准 化 残 差 后 面 接着 打印 一 个 字母 “R”， 如 图 14-18 所 示 。 因 为 误差 项 服从 正 态 分 布 ， 所 以 大 
约 有 5% 的 标准 化 残 差 应 小 于 -2 或 者 大 于 +2。 z 

在 决定 如 何 处 理 一 个 异常 值 时 ， 首 先 我 们 应 该 核对 这 个 异常 值 是 不 是 一 个 有 效 的 观测 值 。 也 许 在 最 初 记 录 数 
据 时 或 是 在 将 数据 录入 计算 机 文件 时 ,已 经 产生 了 错误 。 例 如 ， 假 定 我 们 在 核对 表 14-11 中 的 异常 值 数据 时 ， 我 
们 发 现 第 四 个 观测 值 (x,=3, y=75) 出 现 了 错误 ， 于 是 将 这 个 观测 值 修 正 为 x, =3, y, =30。 图 14-19 是 修正 y 
的 数值 后 得 到 的 Minitab 输出 。 我 们 看 到 ， 利 用 未 经 修正 的 数据 对 拟 合 优 度 有 相当 大 的 影响 。 而 用 修正 后 的 数据 ， 
R? 的 数值 从 49.7% 增 加 到 83. 8% ，b, 的 值 从 64. 958 减少 到 59. 237， 回 归 线 的 斜率 也 从 -7. 331 变 成 -6.949。 识 
别 出 异 常 值 使 我 们 能 够 修正 数据 的 误差 并 改善 回归 的 效果 。 


14. 9. 2 检测 有 影响 的 观测 值 


有 时 一 个 或 几 个 观测 值 会 对 我 们 得 到 的 回归 结果 产生 一 个 强 影 响 。 图 14-20 显示 的 是 在 简单 线性 回归 情形 下 
存在 一 个 有 影响 的 观测 值 (influential observation) 的 例子 。 在 图 中 ， 和 估计 的 回归 线 有 一 个 负 和 斜率 。 但 是 ， 如 果 我 
们 将 有 影响 的 观测 值 从 数据 集中 删除 ， 那 么 估计 的 回归 线 的 斜率 将 从 负 值 改变 为 正 值 ，y 轴 截 距 将 会 变 得 比较 小 。 
显然 ， 在 确定 估计 的 回归 线 时 ， 这 个 观测 值 的 影响 要 比 任何 其 他 观测 值 的 影响 大 得 多 ， 而 从 数据 集中 删除 任意 一 
个 其 他 的 观测 值 ， 对 估计 的 回归 方程 将 只 有 很 小 的 影响 。 
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回归 方程 是 销售 额 
=605.0-7.33x 


预测 量 系数 ”标准 差 堆 
常数 64.958 ”9.258 7.02 
X -7.331 2.608 -2.81 


回归 方程 是 销售 额 
Y=59.2-6.95X 


预测 量 系数。 标准 差 人 堆 P- 值 
常数 ， 5237 3.835 15.45 ,0.000 
x -6.949 1.080 -643 0.000 


S=12.670 4 R-Sq=49.7% R-Sq(adj)=43.4% 
方差 分 析 


来 源 平方 和 均 方 F p 
回归 | 1 268.2 12682 7.90 -0.023 
过 1 284.3 160.5 

总 计 2 552.5 


Unusual OQbservations 


S=5.248 08 R-Sgq=83.8% R-Sq(adj)=81.8% 
方差 分 析 


来 源 ”自由 度 ”平方 和 均 方 F 
回归 1 pool L397 .AL38 
220.3 27.5 
1 360.0 


ge y Fit SEFit Residual StResid 
4 300 7500 42.97 404 32.03 2.67R 


R denotes an Observation with a large standardized residual. 





14-18 ”异常 值 数据 集 回归 分 析 的 Minitab 输出 14-19 ”修正 后 的 异常 值 数据 集 的 Minitab 输出 
当 模 型 中 仅 存 在 一 个 自 变量 时 ， 有 影响 的 观测 值 能 从 散 点 图 中 7 

被 识别 出 来 。 一 个 有 影响 的 观测 值 可 能 是 一 个 异常 值 ( 即 y 值 与 趋 

势 有 相当 大 偏离 的 一 个 观测 值 ) ， 它 也 可 能 对 应 一 个 远离 自 变量 x 平 

均值 的 观测 值 (如 图 14-20 所 示 ) ,或 者 它 也 可 能 是 由 于 这 两 者 的 组 。。 


合 产生 的 观测 值 (在 某 种 程度 上 y 值 偏离 了 趋势 ， 同 时 在 某 种 程度 | ，。 ~ 有 影响 的 观测 什 
上 又 是 x 的 一 个 极端 值 )。 ; 


因为 有 影响 的 观测 值 对 估计 的 回归 方程 可 能 有 如 此 明显 的 影响 ， 
所 以 我 们 对 这 种 观测 值 必须 仔细 检查 。 首 先 ， 我 们 应 该 查 明 在 采集 
或 者 录入 数据 时 ， 确 保 没 有 出 现 错误 。 如 果 出 现 了 错误 ,我们 应 进 ”图 14-20 存在 一 个 有 影响 的 观测 值 的 数据 集 
行 修正 并 求 出 一 个 新 的 估计 的 回归 方程 。 如 果 一 个 有 影响 的 观测 值 是 有 效 的 ， 我们 应 该 为 有 这 样 一 个 观测 值 而 感 
到 幸运 。 因 为 这 样 一 个 有 效 的 点 ， 能 帮助 我 们 对 模型 是 否 合理 有 一 个 较 好 的 理解 ， 并 且 能 导致 我 们 得 到 一 个 比较 
好 的 估计 的 回归 方程 。 在 图 14-20 的 数据 集中 ， 存 在 一 个 有 影响 的 观测 值 ， 如 果 它 是 有 效 的 观测 值 ， 那 么 将 启发 
我 们 试 着 去 得 到 自 变 量 的 中 间 值 的 数据 ， 从 而 使 我 们 能 更 好 地 理解 、 认 识 * 和 ;之 间 的 关系 。 

自 变量 是 极端 值 的 观测 值 被 称 为 高 杠杆 率 点 (high leverage point) 。 图 14-20 中 的 有 影响 的 观测 值 就 是 一 个 具 
有 高 杠杆 率 的 点 。 我 们 可 以 根据 自 变 量 的 值 与 它们 的 平均 值 距离 的 远近 确定 一 个 观测 值 的 杠杆 率 。 对 于 只 有 一 个 
自 变量 的 情形 ， 我 们 用 太 表示 第 i 次 观测 的 杠杆 率 ， 它 能 利用 式 (14-33) 计算 出 来 。 





x 





从 上 式 中 可 以 清晰 地 看 出 ， 与 x 的 平均 值 x 距离 较 远 的 x;， 第 i 次 观测 的 杠杆 率 较 高 。 

作为 标准 回归 分 析 输 出 的 一 部 分 ,许多 统计 软件 包 都 表 14-12 具有 高 杠杆 率 观 测 值 的 数据 集 
能 自动 地 识别 出 高 杠杆 率 的 观测 值 。 为 了 说 明 Minitab 统 
计 软 件 包 如 何 识别 具有 高 杠杆 率 的 观测 值 ， 我们 考虑 
表 14-12 中 的 数据 集 。 : 

图 14-21 是 表 14-12 数据 集 的 散 点 图 。 从 图 中 可 以 清 
晰 地 看 出 ， 第 7 个 观测 值 (x =70，y=100) 是 和 目 变量 x 一 
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个 具有 极端 值 的 观测 值 。 因 此 ， 我 们 将 期 待 着 它 作为 高 杠杆 率 的 点 被 识别 出 来 。 对 于 这 个 观测 值 ， 我 们 利用 式 
(14-33) 计算 出 它 的 杠杆 率 如 下 。 

1 Xi 一 区 ) 1 ISO 

人 是 和 -+ 

对 于 简单 线性 回归 情形 ， 如 果 杠 杆 率 h >min|6/n，0.991 ( 即 刀 大 于 6/n 与 0.99 的 较 小 者 )， 那么 Minitab 

将 把 这 个 观测 值 识 别 为 具有 高 杠杆 率 的 观测 值 。 对 于 表 14-12 中 的 数据 集 ，6/n =6/7 =0.86， 因 为 hh =0.94 > 

0.86， 所 以 ，Minitab 将 把 第 7 个 观测 值 识别 为 自 变 量 x 的 值 具 有 大 的 影响 的 观测 值 。 图 14-22 给 出 了 这 个 数据 集 

回归 分 析 的 Minitab 输出 。 第 7 个 观测 值 (x =70，y =100) 作为 具有 大 的 影响 的 观测 值 被 识别 出 来 ， 这 个 具有 大 

的 影响 的 观测 值 在 图 的 底部 被 单独 打印 一 行 ， 并 在 这 行 的 右 侧 边缘 处 用 “X” 标 出 。” 


= 0. 94 


回归 方程 是 
y=127-0.425x 


预测 量 系数 标准 差 惟 产值 
0:00 带 数 127466 2.961 43.04 0.000 
ey 和 x _0.42507 0.09537 -4.46 0.007 


日 S=4.882 82 R=-sq=79.9% R=-sq(adi)=75.9% 
120.00 a . 方差 分 析 
四 来 源 ”自由 度 ”平方 和 
人 
110.00 。 站 和 592.86 
具有 高 杠杆 率 的 观测 值 
Unusual Observations 


Obs SE Fit Residual StResid 


x y Fit 
100.00 1 700 W000 GFN 4.713 2.29 1,91 X 





X denotes an observation whose X value gives it large influence， 


10.00 25.00 40.00 55.00 70.00 85.00 


图 14-21 具有 一 个 高 杠杆 率 观 测 值 的 数据 集 的 散 点 图 图 14-22 具有 一 个 高 杠杆 率 观测 值 的 数据 集 的 Minitab 输出 


有 影响 的 观测 值 是 由 于 大 的 残 差 和 高 杠杆 率 的 交互 作用 而 产生 的 ， 我们 要 把 它们 检测 出 来 可 能 是 一 件 困难 的 
工作 。 在 确定 什么 时 候 一 个 观测 值 是 有 影响 的 观测 值 时 ， 只 要 考虑 到 大 的 残 差 和 高 杠杆 率 这 两 个 方面 ， 我 们 就 能 
得 到 便于 使 用 的 判断 方法 。 其 中 一 种 这 样 的 度量 称 为 库 克 D 统计 量 , 我们 将 在 第 15 章 中 加 以 讨论 。 


注释 和 评论 


一 旦 一 个 观测 值 由 于 大 的 残 差 或 高 杠杆 率 被 识别 为 是 潜在 的 有 影响 的 观测 值 ， 我 们 就 应 该 针对 这 个 观测 值 对 
估计 的 回归 方程 的 影响 进行 评估 。 较 高 级 的 教科 书 将 对 此 进行 讨论 。 然 而 ， 如 果 人 们 不 热 悉 较 高 级 教科 书 的 内 
容 ， 那 么 一 个 简单 的 ， 不 管 包含 或 是 不 包含 有 影响 观测 值 都 适用 的 步骤 将 用 于 回归 分 析 。 这 个 方法 将 显示 出 观测 
值 对 分 析 结 果 的 影响 。 





方法 含 任何 异常 值 吗 ? 请 作出 解释 。 
六 50. 考虑 下 面 两 个 变量 x 和 7y 的 数据 。 b. 作出 关于 7 的 标准 化 残 差 图 。 这 个 残 差 图 显示 出 
x | i35 i0 130 145 175 160 120 任何 异常 值 吗 ? 
y, |145 100 120 120 130 130 110 co 绘制 出 这 些 数据 的 散 点 图 。 散 点 图 表明 在 这 些 


a. 计算 这 些 数据 的 标准 化 残 差 。 在 这 些 数据 中 包 数据 中 存在 任何 异常 值 吗 ? 在 一 般 情况 下 ， 对 


加 ”为 了 完成 识别 有 影响 的 观测 值 的 计算 ， 计 算 机 软件 包 是 必 不 可 少 的 。 在 这 里 我 们 讨论 了 Minitab 的 选择 规则 。 
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于 简单 线性 回归 ， 这 一 发 现 意味 着 什么 ? 


应 用 
祝 52，Charity Navigator 是 美国 领先 的 独立 起 善 评估 机 构 。 


对 于 10 个 超大 型 慈善 机 构 的 总 费用 【〔 单 位 : 美 
元 )、 行 政 费 用 占 总 预算 支出 的 比例 、 筹 款 费 用 占 
总 预算 支出 的 比例 ， 以 及 开展 活动 费用 占 总 预算 
支出 的 比例 的 数据 如 下 表 所 示 (Charity Navigator 
website，2012 年 4 月 12 日 )。 行 政 费 用 包括 管理 
费 、 行 政 人 员 及 相关 费用 以 及 组 织 会 议 的 费用 。 
筹 款 费 用 是 巧 善 机 构 花 在 幕 捐 上 的 费用 ， 开 展 活 
动 费 用 是 慈善 机 构 花 在 策划 活动 方案 和 提供 服务 
上 的 费用 。 风 于 四 会 五 入 的 原因 ， 这 三 个 百分比 
之 和 不 等 于 100% 。 


行政 | 筹 款 | 活动 
慈 善 机 构 费用 | 费用 | 费用 
(%)|(%) | %) 


Amenican, Red Cross 3354177445| 3.9 | 3.8 | 92,1 
World Vision 5 Ja 
Smithsonian Institution” ，|1080 995 083|23.5 | 2.6 | 73.7 
Food For The Poor 2.4 | 96.8 
Anierican Caiicer Society” |1 003781897| 6.1 |22.2 | 71.6 
IE 
Dana-Farber Cancer Institute | 877321 613|13.1 | 1.6 | 85.2 
ACE 0.7 | 98.9 
ee 


City of Hope 736 176 619 3.0 | 83.1 


a. 用 横 轴 表示 筹 款 费 用 所 占 比例 (%)， 用 纵 轴 表 
示 活 动 费 用 所 占 比 例 (%)， 绘 制 出 这 些 数 据 的 
散 点 图 。 观 察 这 些 数据 ， 是 否 出 现任 何 的 异常 
值 和 (或) 有 影响 的 观测 值 ? 

b. 建立 这 些 数据 的 估计 的 回归 方程 ， 使 这 个 方程 
在 筹 款 沉 用 所 占 比例 (%) 已 知 时 ， 能 用 来 预 
测 开展 活动 费用 所 占 比 例 (%)。 

c. 对 于 这 个 问题 ;估计 的 回归 方程 斜率 的 数值 是 
和 否 有 意义 ? 

d. 利用 残 差分 析 来 确定 : 是 否 存 在 任何 的 异常 值 
和 (或 ) 有 影响 的 观测 值 ? 简要 地 概述 一 下 你 
的 发 现 和 结论 。 

. 下 面 是 美国 橄 模 球 联盟 ( NFL) 32 支 球 队 的 年 收入 

(100 万 美元 ) 和 估计 的 球 队 商业 价值 (100 万 美 

元 ) 的 统计 资料 (Forbes website，2009 年 2 月 )。 


A pp 
Arizona Cardinals 203 914 
Atlanta Falcons 203 872 
Baltimore Ravens 226 1 062 
Buffalo Bills 206 885 
Carolina Panthers 221 1 040 
Chicago Bears 226 1 064 
Cincinnati Bengals 205 941 
Cleveland Browns 220 1 035 
Dallas Cowboys 269 1 612 
Denver Broncos 226 1 061 
Detroit Lions 204 917 
Green Bay Packers 218 1 023 
Houston Texans 239 1 125 
Indianapolis Colts 203 1 076 
Jacksonville Jaguars 204 876 
Kansas City Chiefs 214 1 016 
Miami Dolphins 232 1 044 
Minnesota Vikings 195 839 
New England Patriots 282 1 324 
New Orleans Saints .213 937 
New York Giants 214 1 178 
New York Jets a3 1 170 
Oakland Raiders 205 861 
Philadelphia Eagles 237 1116 
Pittsburgh Steelers 216 1015 
San Diego Chargers 207 888 
San Francisco 49ers 201 865 
Seattle Seahawks 215 1010 
St. Louis Rams 206 929 
Tampa Bay Buccaneers 224 1 053 
Tennessee Titans 216 994 
Washington Redskins 327 1 538 


a， 用 水 平 轴 表 示 球 队 的 年 收入 ， 用 纵 轴 表示 球 队 
的 商业 价值 ， 绘 制 出 这 些 数据 的 散 点 图 。 查 看 
这 张 散 点 图 ,在 这 些 数据 里 ， 存 在 任何 的 异常 
值 和 (或 ) 有 影响 的 观测 值 吗 ? 

b. 建立 人知 计 的 回归 方程 ， 使 这 个 方程 在 球 队 的 年 
收入 已 知 时 ， 能 用 来 预测 球 队 的 商业 价值 。 

c. 应 用 残 差 分 析 方 法 确定 ; 是 否 存在 任何 异常 值 
和 (或 ) 有 影响 的 观测 值 。 简 要 地 总 结 一 下 你 
的 发 现 和 结论 。 





2 


在 这 一 章 里 ,我 们 说 明了 回归 分 析 如 何 用 于 确定 
一 个 应 变量 7 怎样 依赖 一 个 自 变量 x。 在 简单 线性 回归 
情形 ， 回 归 模 型 是 y=B。 +Bix +s。 简 单线 性 回归 方程 
E(y) =B。+Bix 描述 了 yy 的 平均 值 或 期 望 值 是 如 何 依赖 
x 的。 我 们 利用 样本 数据 和 最 小 三 乘法 建立 了 估计 的 
回归 方程 =b + bx。 实 际 上 ，b。 和 bb, 是 用 来 估计 模 
型 的 米 知 参数 Bu 和 B, 的 样本 统计 量 。 

作为 估计 的 回归 方程 拟 合 优 度 的 一 个 度量 ， 我 们 
介绍 了 判定 系数 的 概念 。 判 定 系数 是 应 变量 y 中 的 变 
异性 能 被 估计 的 回归 方程 解释 的 部 分 所 占 的 比例 。 我 
们 还 回顾 了 相关 系数 的 概念 ， 


ee 六 W Yi Do yy 
了 bw ny We TO WW 
os oe hd Wi 
尖 键 / C1 y= po 
; i | A he 








重 ， 用 7 和 疼 示 

independent variable “ 自 变量 是 用 于 预测 或 解释 的 
变量 ， 用 x 表示 。 

simple linear regression 简单 线性 回归 含有 一 个 自 
变量 和 一 个 应 变量 ,并且 两 个 变量 之 间 的 关系 用 一 
条 直线 近似 的 回归 分 析 。 

regression model 回归 模型 ”描述 应 变量 y 如 何 依赖 
自 变量 x 和 随机 误差 项 的 方程 。 对 于 简单 线性 回归 
情形 ， 回 归 模 型 是 y=Bo+Bx+&。 

regression equation 回归 方程 描述 应 变量 y 的 平均 
值 或 期 望 值 如 何 依赖 自 变量 x 的 方程 。 对 于 简单 线 
性 回归 情形 ， 回 归 方 程 是 E(y) =Bo +Bix。 

estimated regression equation 估计 的 回归 方程 ” 利 
用 最 小 二 乘法 ， 根 据 样 本 数据 建立 的 回归 方程 的 估 
计 s 对 于 简单 线性 回归 情形 ， 估 计 的 回归 方程 是 7 = 
bo + bxo 

least squares method ”最 小 二 乘法 用 建立 估计 的 回 
归 方 程 的 方法 ， 其 目标 是 使 式 世 (7; = 六 ) 极 小 化 。 

scatter diagram 散 点 图 用 水 平 轴 表 示 自 变量 ， 用 
纵 轴 表示 应 变量 的 二 维 数据 图 。 

Coefficient of determination ”判定 系数 ”估计 的 回归 方 
程 拟 合 优 度 的 度量 a 该 系数 能 被 理解 为 应 变量 y 的 变 
异性 能 被 估计 的 回归 方程 解释 的 部 分 所 占 的 比例 。 

ith residual 第 /个 残 关 应 变量 的 观测 值 与 利用 估计 
的 回归 方程 得 到 的 预测 值 之 间 的 差 ; 对 于 第 i 个 观 
测 值 ， 第 i 个 残 差 是 y; -yio 

correlation coefficient “相关 系数 ”两 变量 之 间 线 性 关 


它 是 描述 两 变量 之 间 线 方法 。 


dependent variable ”应 变量 -是 被 预测 或 被 解释 的 变 


mean Square error 
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全 * 
十 
一 加 


性 相关 强度 的 一 个 度量 。 

我 们 讨论 了 回归 模型 及 与 其 相 联 系 的 随机 误差 项 
2 的 假定 ， 并 且 介 绍 了 建立 在 这 些 假定 基础 土 的 上 检验 
和 下 检验 ,这 两 个 检验 都 是 判断 两 变量 之 间 的 关系 在 
统计 上 是 否 显著 的 工具 。 泸 们 说 明了 恕 何 利用 估计 的 
回归 方程 建立 y 的 平均 值 的 置信 区 间 估 计 和 Y 的 个 别 
值 的 预测 区 间 估 计 的 方法 。 

作为 本 章 的 结束 ， 我 们 用 一 节 篇 幅 介绍 了 回归 问 
题 的 计算 机 解法 ， 用 两 节 篇 幅 介 绍 了 利用 残 差 分 析 验 
证 模型 的 假定 和 识别 异常 值 及 有 影响 的 观测 值 的 


a "Dip ' 
es Wi ‘a a ee 
加 可 we - 
ee a 局 过 
ap 


系 强度 的 度量 (在 前 面 第 3 章 中 已 讨论 过 )。 

均 方 误差 随机 误差 项 & 的 方差 
0 的 无 偏 估 计量， 用 MSE 或 s。 表示 。 

standard error of the estimate 估计 的 标准 误差 均 
方 误差 的 平方 根 ， 用 s 表示。 它 是 随机 误差 项 & 的 
标准 差 go 的 估计 。 

ANOVA table ANOVA 表 方差 分 析 表 ， 用 于 概括 与 
显著 性 下 检验 相 联 系 的 计算 。 

confidence interval ”置信 区 间 对 于 一 个 给 定 的 x 值 ， 
y 的 平均 值 的 区 间 估 计 。 

prediction interval ”预测 区 间 对 于 一 个 给 定 的 xx 值 ， 
7 的 一 个 个 别 值 的 区 闻 估 计 。 

residual analysis ” 残 差 分 析 残 差分 析 是 用 于 确定 关 
于 回归 模型 所 做 的 假定 是 否 威 立 的 分 析 方法 。 残 差 
分 析 还 被 用 于 识别 异常 值 和 有 影响 的 观测 值 。 

residual plot 残 差 图 残 差 的 图 形 表 示 ， 用 于 确定 关 
于 回归 模型 所 做 的 假定 是 否 成 立 的 一 种 图 示 方 法 。 

standardized residual 标准 化 残 差 ” 残 差 除 以 它 的 标 
准 差 后 得 到 的 数值 。 

normal probability plot 正 态 概率 图 标准 化 残 差 关于 
正 态 分 数值 绘制 出 的 散 点 图 。 正 态 概 率 图 能 帮助 我 们 
确定 随机 误差 项 服从 正 态 概率 分 布 的 假定 是 否 成 立 。 

outlier 异常 值 ”与 其 余 的 数据 点 所 显示 的 趋势 不 相 吻 
合 的 数据 点 或 观测 值 。 

influential observation 有 影响 的 观测 值 ”对 回归 结果 
有 一 个 强 影响 或 强 作用 的 观测 值 。 

high leverage points ”高 杠杆 率 点 
值 的 观测 值 。 









自 变 量 的 值 是 极端 
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简单 线性 回归 模型 y=pBo +BixX+e (14-1) b, 的 估计 的 标准 差 er (14-18) 
简单 线性 回归 方程 E(y) =Bs +Bix (14-2) 1 开本 
估计 的 简单 线性 回归 方程 了 =bo+bx (14-3) / 痊 验 统计 牙 ja (14-19) 
最 小 三 乘 准则 min 瑟 (yi 一 入 )? (14-5) 5% 
估计 的 回归 方程 的 许 率 和 y 轴 截 距 均 方 回归 MR = 站 (14-20) 
b ”2 (Wx) (yi—¥) (14-6) MSR 
> (we 下 检验 统计 量 = (14-21) 
过 全 "的 估计 的 标准 关 
误差 平方 和 ,SSE= 宛 (yi 了》 (14-8) 和 
同 平 方 和 ”SST = 了 (yi 及) (14-9) a ea 
国 后 生地 和 ee E(y") 的 罩 信 区 间作 "+t.osy (14-24) 
SST，SSR 和 ,SSE 之 问 的 关系 一 个 个 别 值 的 估计 的 标准 差 
SST = SSR + SSE (14-11) ] (a 
— 一 一 一 -Es Si 三 责 一 
判定 系数 站 (14-12) pi 
z y“ 的 预测 区 间 了 * +41 ps (14-27) 
数 ,= (四 V 测 是 2 
= E 第 i 个 残 差 的 标准 差 3， =s MI- 有 。 《14-30 
均 方 误差 (02 的 估计 量 ) Pi ee 
ee CE 第 i 个 观测 值 的 标准 化 残 差 ee (14-32) 
第 i 个 观测 值 的 杠杆 率 
估计 的 标准 误差 。s= VMSE= /5 (14-16) hh ,Aw ce 
0 n L(x -x) 
5 区 涛 准 莽 a = 一 二 一 (14-17) 
VE a)” 









56. 对 于 x 的 一 个 给 定 值 ，y 的 平均 值 的 区 间 估 计 和 mn a 
对 于 的 一 个 给 定 值 ,，y 的 一 个 个 别 值 的 区 间 估 1 月 6 日 12 360 1278 
计 ， 请 用 浆 自 己 的 话 对 它们 两 者 之 间 的 区 别 作出 Cs a A 

1 月 20 日 12 720 1 315 
解释 。 1 为 27 日 12 660 1316 

58. 道琼斯 工业 平均 指数 (DJIA) 和 标准 普尔 500 指 2 月 3 日 12 862 1 345 
数 (S&P 500) 是 用 于 度量 股市 整体 变动 趋势 的 2 月 10 日 12 801 1 343 
测度 。 道 琼斯 工业 平均 指数 是 以 30 家 大 型 企业 2 月 17 日 12 950 1 362 
的 价格 变动 为 依据 ; 标准 普尔 500 指数 是 由 500 这 Ee 和 
只 股票 组 成 的 一 个 综合 指数 。 有 人 说 ,标准 普尔 pe > 

3 月 9 日 12 922 1 371 
500 指数 是 表现 股市 业绩 的 一 个 更 好 的 测度 ， 因 3 月 16 日 13 .233 ja 
为 它 的 基础 更 广泛 。 从 2012 年 1 月 6 日 开始 ,15 3 月 23 日 13 081 1 397 
周 的 道琼斯 工业 平均 指数 和 标准 普尔 500 指数 的 3 月 30 日 13 212 1 408 
收益 价 邵 下 表 所 示 (Barron' s website; 2012 年 4 4 月 5 日 13 060 1 398 
4 月 13 日 12 850 1 370 


月 17 量 )。 


a 以 DJIA 为 目 变 量 ， 绘 制 出 这 些 数 据 的 散 点 图 。 

b. 建立 一 个 估计 的 回归 方程 。 

c, 在 a=0.05 的 显 着 性 水 平 下 ， 对 两 个 变量 之 间 
的 关系 进行 显著 性 检验 。 

d. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 请 作 
出 解释 。 

e. 假定 DJIA 的 收盘 价 是 13 500。 预 测 S&P 500 的 
收盘 价 。 

ft 我 们 是 否 应 该 关注 ， 在 (e) 中 用 来 预测 S&P 
500 收盘 价 的 DJIA 收盘 价 13 500， 因 为 该 数值 
13 500 已 经 超出 了 在 建立 估计 的 回归 方程 时 使 
用 的 数据 范围 。 

. 近年 来 ， 高 等 教育 最 大 的 一 个 变化 是 远程 网 络 大 

学 教育 的 发 展 。 在 线 教育 数据 库 (Online Education 

Database) 是 一 个 独立 机 构 ， 该 机 构 的 宗旨 是 制定 

一 个 经 过 认证 的 顶级 的 远程 网 络 学 院 的 详细 清单 。 

下 表 给 出 了 :29 所 远程 网 络 学 院 的 保留 率 (和 % ) 和 

毕业 率 (和 %) 的 统计 数据 ( Online Education Data- 

base website，2009 年 1 月) 


远程 网 络 学 院 名 称 


保留 率 (%) 毕业 率 (% ) 
Western International Uniyersity 1 25 
South University 51 25 
University of Phoenix 4 28 
American InterContinental University 29 32 
Franklin University 33 33 
Devry University 47 33 
Tiffin University 63 34 
Post University 45 36 
Peirce College 60 36 
Everest University . 62 36 
Upper lowa University 67 36 
Dickinson State University 65 37 
Western Govemors University 78 37 
Kaplan University 75 38 
Salem International University 54 39 
Ashford University 45 41 
ITT Technical Institute 38 44 
Berkeley College 51 45 
Grand Canyon University 69 46 
Nova Southeastern University 60 47 
Westwood College 37 48 
Everglades University 63 50 
Liberty University 73 51 
LeToumeau University 78 52 
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( 续 ) 

远程 网 络 学 院 名 称 保留 率 (%) ”毕业 率 (% ) 
Rasmussen College 48 53 
Keiser University 95 55 
Herzing College 68 56 
National University 100 37 
Florida National College 100 61 


a. 以 保留 率 为 自 变 量 ， 绘 制 出 这 些 数据 的 散 点 图 。 
散 点 图 显示 出 在 这 两 个 变量 之 间 存 在 什么 关系 ? 

b. 建立 估计 的 回归 方程 。 

c. 在 w=0.05 的 显著 性 水 平 下 ， 检 验 变量 之 间 关 
系 的 显著 性 。 

d. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 

e. 假设 你 是 South University 的 校长 。 在 详细 审查 
上 表 中 的 排行 榜 并 且 与 其 他 远程 网 络 学 院 比较 

后 ， 你 是 否 关注 你 所 在 学 校 的 业绩 ? 

f 假设 你 是 University of Phoenix 的 核 长 。 在 详细 审 
查 上 表 中 的 排行 榜 并 且 与 其 他 网 络 远 程 学 院 比 
较 后 ， 你 是 和 否 关注 你 所 在 学 校 的 业绩 ? 

在 生产 过 程 中 ， 管 理 人 员 认 为 : 在 检验 过 程 中 ， 装 

配 线 的 速度 《英尺 /分 ) 会 影响 发 现 次 品 数 量 的 多 

少 。 为 了 验证 这 种 说 法 ， 管 理 人 员 设 计 了 一 种 装 

置 ， 该 装置 能 使 同一 批 次 产品 ， 在 装配 线 的 各 种 速 

度 下 接受 答 验 。 收 集 到 的 数据 如 下 表 所 示 。 











装配 线 的 速度 。 ”被 发 现 的 “|| 装配 线 的 速度 。 被 发 现 的 
(英尺 /分 ) 次 品 数量 (英尺 /分 ) 次 品 数量 





a 建立 被 发 现 的 次 品 数量 关于 装配 线 速度 的 估计 
的 回归 方程 。 


b. 在 a=0.05 的 显著 性 水 平 下 ， 确定 装 配 线 的 速 
度 和 被 发 现 的 次 品 数量 之 间 是 否 相 关 ? 

c. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 

d. 如 果 一 条 装配 线 的 速度 为 50 英尺 /分 ， 建立 一 
个 能 预测 次 品 平 均 数 量 的 置信 水 平 为 95% 的 置 
信 区 间 。 z 


. 对 于 一 个 大 都 市 城区 ， 当 地 交通 管理 部 门 想 要 确 


定 公共 汽车 的 使 用 时 间 和 年 维修 费用 之 间 是 否 存 
在 某 种 关系 。 由 10 辆 公共 汽车 组 成 一 个 样本 ， 收 
集 到 的 数据 如 下 表 所 示 。 
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公共 汽车 使 用 。 年 维修 费用 
时 间 (年 ) (美元 ) 


公共 汽车 使 用 “年 维修 费用 
时 间 (年 ) (美元 ) 








a. 利用 最 小 三 乘法 ， 建 立 估 计 的 回归 方程 。 

b. 在 a=0.05 的 显著 性 水 平 下 ， 通 过 检验 能 否 看 
出 两 变量 之 间 存 在 一 个 显著 的 关系 。 

c 最 小 二 乘 回归 线 对 观测 数据 的 拟 合 好 吗 ? 请 作 
出 解 灵 。 

d. 如 果 有 一 辆 已 使 用 了 4 年 的 特定 的 公共 汽车 ， 
建立 一 个 该 公共 汽车 置信 水 平 为 95% 的 年 维修 
费用 的 预测 区 间 。 

据 路 透 社 报道 ， 施乐 公司 的 市 场 贝 塔 系数 是 1. 22 

(Reuters website,， 2009 年 工 月 30 日 )。 对 于 个 别 

股票 ， 贝 塔 系数 是 由 简单 线性 回归 模型 确定 的 。 

对 于 每 一 只 股票 ， 应 变量 是 该 股票 的 季度 回报 率 

(资本 增值 加 上 分 红 ) 减 去 可 以 从 无 风险 投资 得 

到 的 回报 率 〈 用 美国 国库 债券 率 作 为 无 风险 利 

率 )。. 自 变量 是 股票 市 场 《S&P 500) 的 季度 回报 

率 ( 资 本 增值 加 土 分 红 ) 减 去 无 风险 投资 回报 

率 。 利 用 季度 数据 建立 估计 的 回归 方程 ;估计 的 

回归 方程 的 斜率 (4) 就 是 股票 市 场 的 贝塔 系 

数 。 经 常 将 市 场 贝 塔 系数 的 值 视 为 对 股票 风险 的 

度量 。 如 果 市 场 贝 塔 系数 的 值 大 于 1， 表 示 这 只 

股票 的 波动 较 市 场 的 平均 水 平 大 ; 如 果 市 场 贝 塔 

系数 的 值 小 于 1， 表 示 这 只 股票 的 波动 较 市 场 的 

平均 水 平 小 。 假设 ,下 面 是 S&P 500 和 Horizon 

Technology 公司 的 10 个 季度 的 回报 率 与 无 风险 回 

报 率 之 差 的 统计 数据 。 





a. 建立 估计 的 回归 方程 ， 使 这 个 方程 能 用 来 预测 
Horizon Technology 公司 的 市 场 贝 塔 系数 。Hori- 
zon Technology 公司 的 市 场 贝 塔 系数 是 多 少 ? 
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b. 在 aw=0.05 的 显著 性 水 平 下 ， 检 验 这 两 个 变量 
之 间 的 显著 性 关系 。 

c. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 请 作 
出 解释 。 

d. 根据 施乐 公司 和 Horizon Technology 公司 的 市 场 
贝塔 系数 值 ， 比 较 这 两 只 股票 的 风险 。 

丰田 凯美瑞 是 北美 最 畅销 的 车 型 之 一 。 二 手 凯 美 瑞 

汽车 的 销售 价格 取决 于 许多 因素 ,包括 车 型 年 份 、 

行驶 里 程 和 车 况 。 为 了 调查 汽车 行驶 里 程 和 销售 价 

格 之 间 的 关系 ， 由 19 辆 已 销售 的 2007 年 坎 凯 美 瑞 

汽车 组 成 一 个 样本 ， 它 们 的 行驶 里 程 和 销售 价格 数 

据 如 下 表 所 示 (PriceHub，2012 年 2 月 24 日 )。 

a. 以 汽车 行驶 里 程 为 水 平 轴 ， 汽 车 销售 价格 为 纵 
轴 ， 绘 制 出 这 些 数 据 的 散 点 图 。 

b. 根据 在 (a) 中 作出 的 散 点 图 ， 在 这 两 个 变量 之 
间 显 示 出 什么 关系 ? 

c. 建立 估计 的 回归 方程 ， 使 这 个 方程 在 汽车 行驶 
里 程 (单位 : 1000 英里 ) 已 知 时 ， 能 用 来 预测 
汽车 销售 价格 (单位: 上 000 美元 ) 。 

d. 在 a=0,05 的 显著 性 水 平 下 ， 检 验 这 两 个 变量 
之 间 的 显著 关系 。 

e. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 请 作 
出 解释 。 

f. 请 对 估计 的 回归 方程 的 斜率 作出 解释 。 

& 假定 ， 你 正在 考虑 购买 一 辆 2007 年 款 的 凯美瑞 
二 手 车 ,该 车 已 经 行驶 了 60 000 英里 。 利 用 在 
(ec) 中 建立 的 估计 的 回归 方程 ， 预 测 这 辆 车 的 
价格 。 这 是 你 打算 支付 给 经 销 商 的 价格 吗 ? 


价格 
(1 000 美元 ) 


行驶 里 程 
(1 000 英里 ) 


行驶 里 程 
(1 000 英里 ) 


价格 
(1 000 美元 ) 
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量 股 票 市 场 风 隐 RR 

一 只 个 别 股 票 的 风险 或 者 波动 性 的 的 测度 是 过 去 几 个 时 期 总 回报 率 (资本 增值 加 上 分 红 ) 的 标准 差 。 虽然 计 
算 标准 差 是 一 件 容易 的 事情 ,但 是 作为 标准 市 场 指数 (例如 S&P 500) 的 一 个 函数 ， 并 没有 考虑 到 茶 一 股票 价格 
变化 的 范围 。 结 果 是 ， 许 多 金融 分 析 师 更 喜欢 使 用 另 一 种 被 称 为 贝塔 系数 的 风险 测度 。 

一 只 个 别 股票 的 贝塔 系数 是 由 简单 线性 回归 模型 确定 的 。 应 变量 是 该 股票 的 总 回报 率 ， 自 变量 是 股票 市 场 的 
总 回报 率 。 对 于 这 种 情况 下 的 问题 ， 我 们 将 利用 S&P 500 指数 作为 股票 市 场 的 总 回报 率 的 测度 ， 并 且 利 用 月 度数 
据 ， 建 立 一 个 估计 的 回归 方程 。 估 计 的 回归 方程 的 斜率 (b,) 就 是 股票 的 贝塔 系数 。 在 本 书 所 附 光盘 中 各 为 Beta 
的 文件 提供 了 交易 量 大 的 8 只 普通 股票 和 S&P 500 的 36 个 月 度 的 总 回报 率 ( 资 本 增值 加 上 分 红 ) 的 数据 。 

股票 市 场 的 贝塔 值 始终 为 1; 因此 ， 随 着 股票 市 场 的 上 升 和 下 降 ， 股 票 也 将 有 一 个 接近 于 1 的 贝塔 值 。 如 果 
贝塔 值 大 于 1， 表 示 这 只 股票 的 波动 较 股票 市 场 的 平均 水 平 大 ; 如 果 贝 塔 值 小 于 1， 表 示 这 只 股票 的 波动 较 股票 市 
场 的 平均 水 平 小 。 例 如 ， 如 果 一 只 股票 的 页 塔 值 是 1.4， 这 就 意味 着 ,这 只 股票 的 波动 较 股 票 市 场 的 平均 水 平 高 
40%; 如 果 一 只 股票 的 贝塔 值 是 0.4， 这 就 意味 着 ,这 只 股票 的 波动 较 股票 市 场 的 平均 水 平 低 60% 。 
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你 被 指派 来 对 这 些 股 票 进行 风险 特性 分 析 。 编 写 一 份 报告 ， 该 报告 包括 但 不 限于 下 面 的 项 目 。 

1. 对 每 一 只 股票 和 S&P 500， 计 算 描 述 统 计量 。 评 论 你 的 结果 。 哪 一 只 股票 的 波动 性 最 大 ? 

2. 计算 每 一 只 股票 的 贝塔 值 。 在 一 个 上 升 的 股票 市 场 上 ,你 预期 哪 一 只 股票 将 会 有 最 好 的 业绩 ? 在 一 个 下 跌 
的 股票 市 场 上 ， 你 预期 哪 一 只 股票 的 保值 将 会 最 住 ? 

3. 一 只 个 别 股票 的 回报 率 有 多 少 能 被 股票 市 场 解释 。 





类 国父 偶 FA 


作为 交通 安全 研究 的 一 部 分 ， 美国 交通 部 在 由 42 个 城市 组 成 的 样本 中 ， 收集 了 每 1000 个 有 驾驶 执照 的 司机 
发 生死 亡 事故 的 车 祸 次 数 和 有 驾驶 执照 的 司机 中 站 岁 以 下 者 所 点 比例 的 数据 。 在 一 年 期 间 收集 的 数据 如 下 表 所 
示 。 这 些 数 据 存 放 在 本 书 所 附 光盘 名 为 Safety 的 文件 中 。 


司机 中 21 岁 ”每 千 个 有 驾照 |‖| 司机 中 21 岁 每 千 个 有 驾照 |‖ 司机 中 21 岁 ”每 二 个 有 驾照 |‖ 司机 中 21 岁 每 千 个 有 鸭 照 
以 下 者 所 占 司机 中 发 生 以 下 者 所 占 司机 中 发 生 以 下 者 所 占 司机 中 发 生 以 下 者 所 点 司机 中 发 生 
比例 (%) “死亡 事故 的 次 数 | 比例 (%) 死亡 事故 的 次 数 | 比例 (%) ”死亡 事故 的 次 数 | 比例 (%) 死亡 事故 的 次 数 


13 2.962 18 3.614 
12 0. 708 10 1.926 
8 0. 885 14 1.643 
12 1.652 16 2.943 
11 2.091 12 1.913 
17 2.627 15 2.814 
18 3. 830 13 2.634 
8 0. 368 9 0.926 
13 1. 142 17 3. 256 

0. 645 
9 1. 028 





加 为 了 计算 贝塔 系数 ， 各 种 模型 使 用 了 不 同 的 方法 。 例 如 ， 一 些 模 型 在 计算 侦 计 的 回归 方程 以 前 ， 要 从 应 变量 积 自 变量 中 减 去 可 以 从 
无 风险 投资 (例如 ， 国 库 券 ) 得 到 的 回报 率 。 有 些 模型 还 利用 了 股票 市 场 总 回报 率 的 不 同 的 指数 ; 例如 ， 利 用 纽约 证 券 交 易 所 综 
合 指数 的 价值 线 〈Value Line) 计算 贝塔 系数 。 
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1. 对 这 些 数 据 作 出 数值 的 和 图 形 的 概述 。 

2. 利用 回归 分 析 方 法 研究 发 生死 亡 事故 的 车 祸 次 数 和 司机 中 21 岁 以 下 者 所 占 比 例 之 间 的 关系 。 对 你 的 研究 
结果 进行 讨论 。 

3, 从 你 的 分 析 中 ， 你 能 得 到 什么 结论 或 提出 什么 建议 吗 ? 





— je 
一 全 | ” | | | A ‘ 3- 
mk } | x 一 
2 a 
ld ol 


挑选 一 台 使 瓜 型 (point-and-shool) 涩 码 相 神 于 下 


《消费 者 报告 》 杂 志 测 试 了 166 台 不 同 的 傻瓜 数码 相机 。 基 于 如 ; 分 辩 率 (单位; 100 万 像素 ) 、 重 量 
(单位 : 益 司 )、 图 像 质量 和 和 易 用 性 等 诸多 因素 ,该 杂志 对 每 台 被 测试 的 相机 给 出 了 一 个 总 体 得 分 。 总 分 数 
范围 为 0 ~100， 分 数 越 高 表示 整体 测试 结果 越 好 。 因 为 有 许多 选项 ， 选 择 一 他 相机 可 能 是 一 个 艰难 的 过 
程 ， 并 且 对 于 大 多 数 消 费 者 来 说 ， 价 格 肯定 是 一 个 关键 间 题 。 通 过 花 更 多 的 钱 ， 消 费 者 将 确实 得 到 一 台 优 
越 的 相机 吗 ? 像素 常常 被 认为 是 衡量 画面 质量 好 坏 的 一 个 重要 因素 ,那么 像素 较 多 的 相机 比 像 素 较 少 的 相 
机 更 贵 吗 ? 由 《消费 者 报告 》 杂 志 测 试 的 13 合 佳能 各 15 台 尼 康 超 薄型 数码 相机 的 品牌 、 平 均 零 售 价 【 美 
元 ) 、 人 分辨 率 (100 万 像素 )、 重 量 ( 盘 司 ) 以 及 总 体 得 分 数据 如 表 14-13 所 示 ( Consumer Reports website ， 
2012 年 2 月 7 目 ) 





表 14-13 28 台 傻 瓜 型 ( point-and- shoot) 数码 相机 的 数据 
价格 分 辩 率 重量 价格 分 辩 率 重量 


(美元 ) (100 万 像素 ) 。( 奏 司 ) 。 时 | 本 二 所 9 向 租 三 ( 美 元 六 部) 帮 乱 梯 让 《每 可 ) 。 分数 
1 佳能 330 10 7 66 15 尼康 300 16 7 63 
2 佳能 200 12 5 66 16 尼康 200 14 6 61 
3 佳能 300 12 7 65 I 尼康 400 14 了 59 
4 佳能 200 10 6 62 18 尼康 120 14 ST 
本 佳能 180 12 5 62 19 尼康 170 16 6 S6 
6 佳能 200 12 7 61 20 尼康 150 12 5 56 
7 佳能 200 14 5 60 21 尼康 230 14 6 55 
8 佳能 130 10 7 60 22 尼康 180 12 6 53 
9 佳能 130 12 5 59 23 尼康 130 12 6 53 
10 佳能 110 16 5 55 24 尼 妾 80 12 7 $2 
11 佳能 90 14 5 52 23 尼康 80 14 了 S0 
12 佳能 100 10 6 $1 26 尼康 100 12 + 46 
13 佳能 90 12 ji 46 27 尼康 110 12 5 45 
14 尼康 270 16 5 65 28 尼康 130 14 4 42 
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1. 对 这 些 数据 作出 数值 概述 。 

2 以 总 体 得 分 为 各 变量 ， 绘 制 三 个 散 瓦 图 ， 一 个 以 价格 为 自 变 量 ， 一 个 以 分 辩 率 为 自 变 量 ， 一 个 以 重量 为 自 
变量 。 这 三 个 自 变量 中 的 哪 一 个 似 笠 是 总 体 得 分 的 最 佳 预测 变量 ? 

3. 利用 简单 线性 回归 分 析 方 法 ， 建 立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 相机 的 价格 已 知 时 ， 能 用 来 预测 相 
机 的 总 体 得 分 。 对 于 这 个 估计 的 回归 方程 ， 进 行 残 差 分 析 ， 并 且 讨 论 你 的 发 现 和 结论 。 
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4， 仅仅 使 用 佳能 相机 的 观测 值 进行 数据 分 析 。 讨 论 使 用 简单 线性 回归 的 适用 性 ， 并 且 提 出 仅仅 使 用 相机 价格 
作出 有 关 预 测 总 体 得 分 的 任何 建议 。 





We WW, 


z 找到 最 合适 的 汽车 价值 me 

当 你 试图 决定 购买 一 辆 汽车 时 ， 决 定 汽车 实际 价值 的 并 不 一 定 是 你 在 初次 购买 时 所 花 的 钱 数 。 相 反 ， 性 能 可 
靠 的 并 且 不 用 花 很 多 钱 就 能 买 到 的 汽车 ， 往 往 代 表 了 最 合适 的 价值 。 但 是 ， 不 管 汽车 的 性 能 多 么 可 车 ， 或 者 价钱 
多 么 便宜 就 能 买 到 ， 它 还 必须 要 有 很 好 的 操控 能 力 。 

为 了 度量 汽车 的 价值 , 《消费 者 报告 》 杂 志 提 出 了 一 个 被 称 为 价值 分 数 的 统计 量 。 价 值 分 数 是 根据 
汽车 车 主 五 年 的 费用 、 汽 车 道路 综合 测试 分 数 以 及 预测 可 靠 性 等 级 得 出 的 。 车 主 五 年 的 费用 是 该 车 在 第 
一 个 五 年 所 产生 的 各 项 支出 ， 包 括 折 旧 、 奖 油 、 维 修 及 保养 ， 等 等 。 根 据 一 辆 车 每 年 行驶 12000 英里 的 
全 国平 均 水 平 ， 得 到 每 英里 的 平均 费用 作为 车 主 五 年 费用 的 测度 。 道 路 测试 分 数 是 超过 50 次 测试 和 评 
估 的 结果 ， 并 且 以 100 分 为 满分 来 计算 成 绩 ， 较 高 的 分 数 表示 有 和 较 好 的 性 能 、 和 舒适 性 、 便 利 性 及 燃油 经 
济 性 。 由 《消费 者 报告 》 杂 志 所 实施 的 道路 测试 ， 得 到 最 高 分 的 是 一 辆 雷克萨斯 LS 460L， 为 99 分 。 预 
测 可 靠 性 等 级 (1= 差 ,2= 一 般 ，3= 好 ,，4= 很 好 ，5= 优 秀 ) 是 基于 Consumer Reports” Annual Auto Survey 
的 数据 得 到 的 。 

价值 分 数 为 1.0 的 汽车 被 认为 是 “平均 值 ”"。 价 值 分 数 为 2.0 的 汽车 被 认为 是 比价 值 分 数 为 1.0 的 汽车 好 两 倍 
的 汽车 ; 价值 分 数 为 0.5 的 汽车 被 认为 只 有 价值 分 数 为 1.0 的 汽车 一 半 好 的 汽车 ; 等 等 。20 辆 被 测试 的 家 庭 轿车 
数据 ， 包 括 每 一 辆 车 的 价格 〈 美 元 ) 如 下 表 所 示 。 


汽车 品牌 和 型 号 价格 (美元 ) 费用 /英里 道路 测试 分 预测 可 靠 性 等 级 价值 分 数 
Niasan Altima 2. 5S(.4-c7L. ) 23 970 0. 59 91 4 1.75 
Kia Optima LX(2. 4) 21 885 0. 58 81 4 1.73 
5 23 830 0.59 83 4 1.73 
Pond Fueion Hybeid 32 360 0. 63 84 5 1.70 
ER ) 23 730 0. 56 80 a 1. 62 
Masdab 1 Spantt 4-oyl ) 22 035 0. 58 73 4 1.60 
Hyindal Soneta GLSCD: 4) 21 800 0. 56 89 3 1. 58 
Ford Fusiin SE(4-eyl ) 23 625 0.57 76 4 1. 55 
Cheviolet Malibu LT(4-cyl, ) 24 115 0.57 74 3 1. 48 
Kia Optima SX(2. 0T) 29 050 0.72 84 4 1. 43 
Ford Fusion SEL(CV6) 28 400 0.67 80 4 1.42 
Nissan Altima 3. 5 SR( V6) 30 335 0.69 93 4 1. 42 
HERESER Limited(2. OT) 28 090 0. 66 89 3 1.39 
机) 28 695 0.67 90 3 1. 36 
6] 30790 0.74 81 4 1.34 
Ford Fusion SEL( V6, AWD) 30 055 0.71 75 4 1. 32 
Sub Lemme 2 GR Laiiiiod 30 094 0.71 88 3 1.29 
Chevrolet Malibu LTZ( V6) 28 045 0.67 83 3 1.20 
Chrysler 200 Limited( V6) 27 825 0.70 52 5 1. 20 
Cheviolot Jiipala ET(3,.6) 28 995 0.67 63 3 1.05 
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1. 对 这 些 数据 作出 数值 概述 。 

2. 利用 回归 分 析 方 法 建立 一 个 估计 的 回归 方程 ,使 这 个 方程 在 汽车 的 价格 已 知 时 ， 能 用 来 预测 该 靳 的 价值 
分 数 。 

3. 利用 回归 分 析 方 法 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 汽车 车 主 五 年 成 本 (费用 /英里 )}】 已 知 时 ， 能 
用 来 预测 该 车 的 价值 分 数 。 

4. 利用 回归 分 析 方 法 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 汽车 的 道路 测试 分 数 已 知 时 ， 能 用 来 预测 该 车 
的 价值 分 数 。 

5. 利用 回归 分 析 方 法 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 汽车 的 预测 可 靠 性 等 级 已 知 时 ， 能 用 来 预测 该 
车 的 价值 分 数 。 

6. 从 你 的 分 析 中 ， 你 能 得 出 什么 结论 ? 
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实践 中 的 统计 : dunnhumby 
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实践 中 的 统计 


dunnhumby © 
英国 ， 伦 敦 


1989 年 ，Clive Humby (数学 家 ) 和 和 Edwina Dunn 
(营销 人 员 ) 夫妇 的 团队 创立 了 dunnhumby 公司 。 
dunnhumby 公司 将 经 过 证 实 的 与 生 俱 来 的 能 力 与 宏大 
的 目标 结合 起 来 ， 以 寻找 客户 购买 什么 样 的 商品 以 及 
为 什么 购买 这 些 商 品 的 线索 和 模式 。 该 公司 将 这 些 见 
解 变 成 可 操作 的 策略 ， 这 些 策略 创造 了 急剧 增长 和 可 
持续 的 忠诚 度 ， 最 终 提高 了 品牌 价值 和 客户 的 认 知 度 。 

在 欧洲 、 亚 洲 和 美洲 ，dunnhumby 雇用 的 员工 超 
过 950 人 ， 该 公司 为 一 些 声望 很 高 的 著名 公司 提供 服 
务 ， 如 克 罗 烙 、 乐 购 、 可 口 可 乐 ， 通 用 磨坊 、 金 佰 利 、 
百事 、 宝 洁 和 家 得 宝 。dunnhumby 的 美国 分 公司 是 克 
罗 格 公司 与 dunnhumby 组 成 的 一 家 合资 企业 ， 在 纽约 、 
艺 加 哥 、 亚 特 兰 大 、 明 尼 阿 波 利 斯 、 辛 辛 那 提 和 波 特 
兰 设 有 办 事 处 。 

公司 的 研究 工作 始 于 收集 消费 者 的 统计 数据 。 这 
些 数据 来 自 于 客户 的 奖励 或 优惠 卡 购 买 记 录 ， 以 及 电 
子 销 售 点 的 交易 和 传统 的 市 场 研究 。 数 据 的 分 析 常 常 
要 将 数 以 十 亿 计 的 数据 点 转换 成 有 关 消 费 者 的 行为 、 
喜好 和 和 生活 方式 的 详细 见解 。 这 种 见解 有 利于 制订 更 
有 效 的 营销 方案 ， 包 括 定 价 、 促 销 、 广 告 、 产 品 分 类 
决策 的 战略 建议 。 


研究 人 员 使 用 被 称 为 logistic 回归 的 多 元 回归 技术 
帮助 他 们 分 析 以 客户 为 基础 的 数据 。 使 用 logistic 回归 ， 
建立 一 个 估计 的 多 元 回归 方程 ， 该 方程 的 形式 如 下 
所 示 。 

y=b, + bx thx + »* + b,x, 

应 变量 /是 一 位 客户 属于 一 个 特定 的 客户 群体 的 
一 个 概率 估计 。 自 变量 %，x，,，"…，%, 是 客户 的 实际 
购买 行为 的 度量 ， 可 能 包括 购买 的 具体 物品 、 购 买 物 
品 的 数量 、 购 买 物品 的 金额 、 周 儿 购 买 、 一 天 的 什么 
时 候 购 买 ， 等 等 。 分 析 有 助 于 确认 出 与 预测 客户 群体 
最 相关 的 自 变量 ， 对 客户 总 体 提 供 了 更 好 的 了 解 ， 能 
以 更 大 的 信心 做 进一步 的 分 析 。 分 析 的 重点 在 于 了 解 
顾客 对 商品 开发 、 市 场 营销 、 直 接管 销 方案 等 问题 的 
态度 ， 而 这 些 问 题 与 公司 服务 的 客户 群 有 极 大 的 相 
关 性 。 

在 本 章 中 ， 我 们 将 介绍 多 元 回归 的 概念 ， 并 且说 
明 如 何 将 第 14 章 介绍 的 简单 线性 回归 的 概念 扩展 到 多 
元 回归 的 和 情形。 另外 ， 我 们 还 将 说 明 ， 对 于 多 元 回归 
问题 如 何 使 用 计算 机 软件 包 的 方法 。 在 本 章 的 最 后 一 
节 ， 我 们 将 通过 一 个 例题 介绍 logistic 回归 ， 该 例题 说 
明了 在 市 场 营 销 研究 中 如 何 应 用 logistie 回归 方法 。 


在 第 14 章 中 ,我 们 介绍 了 简单 线性 回归 问题 ， 说 明了 它 在 建立 描述 两 个 变量 之 间 关 系 的 估计 的 回归 方程 中 
的 应 用 。 让 我 们 回想 一 下 ， 被 回归 方程 预测 的 或 者 解释 的 变量 称 为 应 变量 ， 用 来 预测 或 者 解释 应 变量 的 变量 称 为 
自 变 量 。 在 这 一 章 中 ,我 们 将 通过 考虑 两 个 或 两 个 以 上 自 变 量 的 情形 ， 来 继续 我 们 回归 分 析 的 学 习 。 这 一 研究 领 
域 被 称 为 多 元 回归 分 析 (multiple regression analysis) 。 多 元 回归 分 析 使 我 们 能 够 考虑 较 多 的 因素 ， 并 且 能 得 到 比 
利用 简单 线性 回归 更 好 的 预测 结果 。 


15.1 多 元 回归 模型 


多 元 回归 分 析 是 研究 应 变量 y 如 何 依赖 两 个 或 两 个 以 上 自 变量 的 问题 。 在 一 般 情形 下 ， 我 们 将 用 p 示 自 变量 
的 数目 。 \ 


15. 1. 1 回归 模型 和 回归 方程 
我 们 在 上 一 章 介 绍 的 回归 模型 和 回归 方程 的 概念 对 多 元 回归 情形 是 同样 适用 的 。 描 述 应 变量 y 如 何 依赖 于 自 


瑟 ”作者 感谢 dunnhumby 公司 解决 方案 高 级 副 总 裁 Paul Hunter 先生 ， 他 为 “实践 中 的 统计 ”提供 了 本 案例 。 
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变量 x, ，x,，…，%, 和 一 个 误差 项 的 方程 被 称 为 多 元 回归 模型 〈 multiple regression model) 。 我 们 首先 假设 多 元 回归 
模型 的 形式 如 下 。 





mp 
项 ee 误差 项 说 明了 包 





ie a i 
为 的 线性 函数 (Bo 二 名 a +B,% 部 分 ) 加 上 - 






在 第 15. 4 节 中 ， 我 们 将 讨论 多 元 回归 模型 和 z 的 假定 。 假 定之 一 是 s 的 平均 值 或 期 望 值 是 零 。 由 于 这 一 假 
害 ， y 的 平均 值 或 期 望 值 E(y) 等 于 所 上 + 局 ix%i + BX; ss Ws +B,x,o 描述 7 的 平均 值 如 何 依赖 于 %i Wy "Ss %, 的 方程 
被 称 为 多 元 回归 方程 (multiple regression equation ) 。 





如 果 参 数 B， Bl，B,，…，B, 的 值 是 已 知 的 ， 在 给 定 *%，*x。，…，% 的 值 时 ， 我 们 能 利用 式 (15-2) 计算 y 的 
平均 值 。 遗 憾 的 是 ， 这 些 参数 的 值 通常 都 是 未 知 的 ， 我 们 必须 利用 样本 数据 去 估计 它们 。 我 们 利用 一 个 简单 随机 
样本 计算 样本 统计 量 b。，b, ，5,，…，5,， 将 它们 作为 未 知 参数 B。，Bi ，B,，…，B, 的 点 估计 量 。 利 用 这 些 样本 统 
计量 使 我 们 得 到 了 下 面 的 估计 的 多 元 回归 方程 (estimated multiple regression equation) 。 


由 ly | 
天 由 i 





对 于 多 元 回归 情形 ， 





图 15-1 多 元 性 回归 模型 的 估计 步骤 





白 ， 在 简单 线性 回归 情形 中 ，% 和 和 与 是 用 于 估计 未 知 参 数 Bo 和 的 样本 统计 量 。 在 多 元 回归 类 似 的 统计 推断 过 程 中 ,我们 用 如 ，4， 
By 刀 表 示 用 于 估计 未 知 参数 Bo ， Bi, 应 ， i 应 的 样本 统计 量 。 
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15.2 最 小 二 乘法 
在 第 14 章 ， 我 们 利用 最 小 二 乘法 (least squares method) 建立 了 估计 的 回归 方程 ， 这 个 方程 最 佳 地 近似 了 应 变量 





wy 
WO 


我 们 能 利用 估计 的 多 元 回归 方程 | 
y=bo + bs Fb + Fb,%, 
计算 应 变量 的 预测 值 。 

正如 式 (15-4) 所 显示 的 那样 ， 最 小 二 乘法 是 利用 样本 数据 ， 通 过 使 残 差 【 即 应 变量 的 观测 值 (y,) 与 应 变 
量 的 预测 值 (7) 之 间 的 离 差 ] 的 平方 和 达到 最 小 的 方法 求 得 5 ，5,，b, ，…，b, 的 值 。 

为 了 估计 简单 线性 回归 方程 了 =b,+b,x， 在 第 14 章 里 ， 我 们 介绍 了 计算 最 小 二 乘 估计 量 5 和 妃 的 公式 。 对 于 
样本 容量 相对 比较 小 的 数据 集 ， 我 们 能 利用 这 些 公式 通过 手 算 就 能 计算 出 b。 各。 可 是 在 多 元 回归 情形 中 ， 计 算 
回归 系数 加， 轧 ， 久 ，…，5 的 公式 将 涉及 矩阵 代数 的 知识 ， 这 已 经 超出 了 本 书 的 范围 。 所 以 ， 在 介绍 多 元 回归 
时 ， 我 们 将 把 注意 力 集中 到 如 何 使 用 计算 机 软件 包 来 得 到 估计 的 回归 方程 以 及 其 他 的 有 关 信 息 。 重 点 将 是 如 何 解 
释 计 算 机 软件 包 的 输出 ， 而 不 是 如 何 进行 多 元 回归 的 计算 。 


15. 2. 1 一 个 例子 : Butler 运输 公司 
作为 多 元 回归 分 析 的 一 个 说 明 ， 我 们 将 考虑 Butler 运输 公司 所 面临 的 一 个 问题 ， 它 是 一 家 位 于 南 加 利 福 尼 亚 
地 区 的 独立 运输 公司 。Butler 运输 公司 的 主要 业务 遍及 它 所 在 地 区 的 货物 运送 。 为 了 制定 最 佳 的 工作 计划 表 ， 公 
司 的 管理 人 员 和 希望 估计 他 们 的 司机 每 天 行驶 的 时 间 ， 如 表 15-1 所 示 。 
表 15-1 Butler 运输 公司 的 原始 数据 
运输 任务 xi = 行驶 里 程 (英里 ) y= 行驶 时 间 (小 时 ) | ”运输 任务 






Xi = 行驶 里 程 (英里 ) ”y= 行驶 时 间 (小 时 ) 








1 100 9,3 80 6.2 
2 50 4.8 7 75 7.4 
3 100 8.9 8 65 6.0 
二 100 6.5 9 90 7.6 
5 50 4.2 10 90 6.1 


最 初 ， 公 司 的 管理 人 员 认 为 ， 司 机 每 天 行驶 的 时 间 与 每 天 运送 货物 的 行驶 里 程 紧 密 相关 。 由 10 项 运输 任务 
组 成 的 简单 随机 样本 提供 的 数据 如 表 15-1 所 示 ， 散 点 图 如 图 15-2 所 示 。 对 这 个 散 点 图 仔细 观察 后 ， 管 理 人 员 假 
设 ， 能 利用 简单 线性 回归 模型 ?= 多 +Bix +s 来 描述 每 天 行驶 的 时 间 (y) 与 每 天 运送 货物 的 行驶 里 程 (x, ) 之 
间 的 关系 。 我 们 利用 最 小 二 乘法 估计 未 知 参数 B 和 局 ， 建 立 估计 的 回归 方程 为 
三 也 + bw, (15-5) 
在 图 15-3 中 ,9 我 们 给 出 了 利用 表 15-1 中 的 数据 进行 简单 线性 回归 得 到 的 Minitab 计算 机 输出 。 估 计 的 回归 方 
程 是 
y=1.27 +0.067 8x, 


日 ”在 Minitab 计算 机 输出 中 ， 我 们 将 变量 名 Miles 和 Time 作为 列 标题 输入 到 工作 表 中 。 于 是 鸭 = Miles 和 y= Time。 
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回归 方程 是 销售 额 
Time=].27+0.067 8 Miles 


预测 量 系数 ”标准 差 T ip 
常数 1.274 1.401 0.91 0.390 
Miles 0.06783 0.017.06 3.98 0.004 


oo 


心 ] 


S=1.001 79 R=-Sq=66.4% R-Sql(adj)=62.2% 


方差 分 析 


总 行驶 时 间 (小 时 ) 


Ww 


来 源 ”自由 度 平方 和 均 方 F p 
回归 1 15.871 15.871 15.81 0.004 
Go 0 To0 8.029 1.004 


图 15-2 Butler 运输 公司 原始 数据 的 散 点 图 图 15-3 含有 一 个 自 变量 的 Butler 运输 公司 的 Minitab 输出 


F 统 计量 的 值 为 15. 81， 它 所 对 应 的 p- 值 为 0.004， 在 a=0.05 的 显著 性 水 平 下 表明 ，y 和 x 之 间 的 关系 是 显 
著 的 ; 也 就 是 说 ， 由 于 p- 值 比 a=0.05 小 ， 因 此 我 们 应 该 拒绝 原 假设 Hh: B, =0。 注 意 ， 因 为 + 统计 量 的 值 为 
3. 98 ， 与 它 相 联系 的 产值 为 0.004， 所 以 我 们 也 可 以 得 到 同样 的 结论 。 于 是 我 们 能 够 断定 ， 每 天 行驶 的 时 间 与 每 
天 运送 货物 的 行驶 里 程 之 间 存 在 一 个 显著 的 关系 ; 每 天 比较 长 的 行驶 时 间 与 每 天 比较 多 的 运送 货物 的 行驶 里 程 相 
对 应 。 因 为 判定 系数 R =66.4% (用 一 个 百分数 表示 )， 所 以 我 们 可 以 看 出 ， 运 输 车 辆 每 天 行驶 时 间 变 异性 的 
66. 4% 能 被 运送 货物 的 行驶 里 程 的 线性 影响 解释 。 这 一 结果 还 算 不 错 , 但 是 管理 人 员 或 许 希 望 考虑 增加 第 二 个 自 
变量 去 解释 应 变量 中 剩余 的 变异 性 。 

在 试图 确认 男 一 个 自 变 量 时 ， 管 理 人 员 觉 得 运送 货物 的 次 数 也 可 能 影响 到 行驶 的 总 时 间 。Butler 运输 公司 增 
加 子 运送 货物 次 数 的 数据 ， 如 表 15-2 所 示 。 用 每 天 运送 货物 的 行驶 里 程 (%, ) 和 和 运送 货物 的 次 数 (%,) 作 自 变 
量 ，Minitab 计算 机 输出 结果 如 图 15-4 所 示 。” 估计 的 回归 方程 是 

y= —0.869 +0. 061 1x, +0.923x, (15-6) 


~ 





50 





表 15-2 用 行驶 里 程 (x ) 和 运送 货物 次 数 (六 ) 





回归 方程 是 销售 额 
A 
作 自 变量 的 Butler 运输 公司 的 数据 Time=-0.869+0.061 1 Miles+0.923 Deliveries 
运输 任务 Xi = 行驶 里 程 Jo = 运送 货物 y= 行 驶 时 间 
(英里 ) 的 次 数 (小 时 ) 预测 量 系数 标准 差 这 p 
常数 -0.8687 0.9515 -3091 0.392 
I 100 4 2.3 Miles 0.061135 0.009888 6.18 0.000 
7 50 3 4.8 Deliveties 0.9234 02211 418 0.004 
3 100 时 S-0.573 142 R-Sg=90.4% R-Sq(adj)=87.6% 
4 100 2 6.5 
5 50 2 4.2 方差 分 析 
6 80 2 6.2 来 源 ”自由 度 平方 和 均 方 F p 
pi 回归 2 21.601 10.800 32.88 0.000 
误差 7 2299 0.328 
8 65 4 6.0 总 计 9 23.900 
9 90 3 71.6 
图 15-4 具有 两 个 自 变量 的 Butler 运输 公司 
10 90 2 6.1 的 Minitab 输 出 号 


昌 生成 如 图 15-4 所 示 的 Minitab 输出 的 必要 步骤 在 附录 15A 中 给 出 。 
全 在 Minitab 计算 机 输出 中 ， 我 们 将 变量 名 Miles、 Deliveries 和 Time 作为 列 标题 输入 到 工作 表 中 。 于 是 | =WMiles、 和 2 = Deliveries 和 7 三 Time。 
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在 下 一 节 ， 我 们 将 讨论 如 何 利 用 多 元 判定 系数 来 度量 ,我 们 得 到 的 这 个 估计 的 回归 方程 对 观测 数据 是 一 个 好 
的 拟 合 。 在 此 之 前 ， 让 我 们 先 更 仔细 地 考察 一 下 在 式 (15-6) 中 的 两 个 估计 值 5, =0.0611 和 b&b,=0.923。 


15. 2.2 关于 回归 系数 解释 的 注释 


现在 我 们 得 到 了 两 个 估计 的 回归 方程 ， 一 个 估计 的 回归 方程 是 仅 用 每 天 运送 货物 的 行驶 里 程 作为 自 变量 ， 另 
一 个 估计 的 回归 方程 包含 了 用 运送 货物 的 次 数 作为 第 二 个 自 变量 ， 可 以 对 两 个 估计 的 回归 方程 之 间 的 关系 作出 一 
些 解 释 。 在 这 两 种 情形 下 ，b, 的 值 是 不 同 的 。 在 简单 线性 回归 情形 中 ， 我 们 把 5 看 作 是 当 自 变量 变化 一 个 单位 时 ， 
应 变量 y 变化 程度 的 一 个 估计 。 在 多 元 回归 分 析 情 形 中 ， 这 一 解释 应 稍微 做 些 修 改 。 也 就 是 说 ， 在 多 元 回归 分 析 
情形 中 ， 我 们 对 每 一 个 回归 系数 有 如 下 解释 : 当 所 有 其 他 自 变量 都 保持 不 变 时 ，4b 可 以 看 作对 应 的 自 变 量 x 变化 
一 个 单位 时 ， 应 变量 y 变化 程度 的 一 个 估计 。 在 包括 两 个 自 变量 的 Butler 运输 公司 的 例子 中 ，b, =0. 061 1。 于 是 ， 
当 运 送 货物 的 次 数 保 持 不 变 时 ， 对 应 于 运送 货物 行驶 的 里 程 每 增加 1 英里 ， 运 送 货物 车 辆 期 望 增加 的 行驶 时 间 的 
估计 值 是 0.061 1 个 小 时 。 类 似 地 ， 因 为 b, =0.923， 所 以 当 运 送 货物 行驶 的 里 程 保持 不 变 时 ， 对 应 于 运送 货物 的 
次 数 每 增加 1 次 ,运送 货物 车 辆 期 望 增加 的 行驶 时 间 的 估计 值 是 0. 923 个 小 时 。 


二 y 
本 :> cd a us 
二 
' 香 -yd 
TEL .和 


请 注意 : 在 设计 本 节 和 后 面 几 节 ， 解 答 包括 数据 在 内 b. 对 估计 的 回归 方程 中 的 各 和 态 作 出 解释 。 






的 习题 时 ， 我 们 是 借助 于 计算 机 软件 包 完 成 的 。 6. 美国 国家 椰 榄 球 联 盟 记录 了 每 名 球员 和 每 支 球 队 各 
方法 种 表现 的 数据 8 为 了 调查 传 球 在 球 队 获胜 中 发 挥 的 
人 重要 作用 ， 由 16 支 美国 国家 柚 米 球 联盟 的 球 队 组 成 


一 个 随机 样本 ， 每 支 球 队 所 属 的 联合 会 、 在 2011 年 
赛季 每 次 进攻 的 平均 传 球 码 数 (Yds/Att)、 每 次 进 
攻 被 守 方 拦截 的 次 数 (JInMAt) 和 上 比赛 的 获胜 率 
(Win9% ) 数据 如 下 表 所 示 (NEL website，2012 年 2 





肯 队 咽 有。 
球 队 名 称 所 属 联 合 会 Yds/Att Int/Att Win (% ) 
Arizona Cardinals NFC 6.5 0.042 50.0 
a. 利用 这 些 数据 ， 建 立 y 关 于 为 的 估计 的 回归 方 AR NFC 7 ,0.002 ~ 
程 。 恕 果 wi =45 ， 预 测 y 的 值 。 Carolina Panthers NFC 吕 肖 0.033 - 37.5 
b. 利用 这 些 数据 ， 建 立 yY 关 于 和 的 估计 的 回归 方 Cincinnali Bengals AFC 6.2 0.026 56.3 
程 。 如 果 x, =15， 预 测 y 的 值 。 Detroit Lions NFC 7.2 0.024 62.5 
c. 利用 这 些 数据 ， 建 立 y 关 于 x 和 % 的 估计 的 回归 Green Bay Packers NFC 8.9 0.014 93.8 
入 程 。 如 淋 4 45，%， = 行 ， 纠 到 了 二 本 Houston Texans AFC 7 Ol ,0 
Indianapolis Colts AFC $5.6 0. 026 12: 5 
应 用 Jacksonville Jaguars AFC 16 O00 有 .3 
4. 一 家 鞋 店 建立 了 销售 收入 关于 存货 投资 和 广告 党 用 Miiinésota Vilings NEFC 5.8 0.033 18.8 
的 估计 的 回归 方程 如 下 。 New England Patriots AFC 8.3 0.020 81.3 
?=25 + 10x, + 8x, NewOrleans Saints NFC 8.1 0. 021 81.3 
式 中 ,ww 为 存货 投资 (1 000 美元 ); 如 为 广告 费用 Te a a ee 
| 2 an Franciseo 49ers , 
CV 关 元 ); WV ED 闫 元 )。 Tennessee Titans AFC 6.7 0. 024 56. 3 
a 如 果 这 家 鞋 店 有 存货 投资 15 000 美元 ,三 告 WE NiC 6 0 
预算 费用 为 10 000 美元 ， 预 测 恋 字 状 让 的 铺 ，， ， EC 天 关 册 本 本 和 让 的 二 二 庆生 


售 收入 - 联合 会 。 


a. 建立 估计 的 回归 方程 ， 使 这 个 方程 在 球 队 每 次 进 
攻 的 平均 传 球 码 数 已 知 时 ， 能 用 来 预测 比赛 的 获 
胜率 。 

b. 建立 估计 的 回归 方程 ， 使 这 个 方程 在 球 队 每 次 进 
攻 和 被 守 方 拦截 的 次 数 已 知 时 ， 能 用 来 预测 比赛 的 
获胜 率 。 

c. 建立 估计 的 回归 方程 ， 使 这 个 方程 在 球 队 每 次 进 
攻 的 平均 传 球 码 数 、 每 次 进攻 被 守 方 拦截 的 次 数 
已 知 时 ， 能 用 来 预测 比赛 的 获胜 率 。 

d. 在 2011 年 赛季 ，Kansas City Chiefs 队 在 比赛 中 每 
次 进攻 的 平均 传 球 码 数 是 6.2， 每 次 进攻 被 守 方 
拦截 的 次 数 是 0.036。 利 用 在 (c) 中 建立 的 估计 
的 回归 方程 ， 预测 该 队 的 获胜 举 。( 注 : 在 2011 
年 赛季 ，Kansas City Chiefs 队 的 记录 是 7 了 胜 9 
负 。) 将 你 的 预测 结果 与 Kansas City Chiefs 队 实 
际 比赛 的 获胜 率 进行 比较 。 

.Conde Nast Traveler 杂志 金牌 榜 对 2012 年 排名 前 20 

位 的 小 型 豪华 游轮 评定 了 等 级 (Conde Nast Traveler 

website，2012 年 3 月 ) 根据 Conde Nast Traveler 杂志 

的 年 度 “ 读 者 选择 调查 ” (Readers Choice Survey ) 

结果 ， 得 到 的 每 一 艘 游轮 的 等 级 得 分 如 下 表 所 示 。 

每 个 得 分 表示 受 访 者 按照 一 些 标 准 ， 将 一 舰 游轮 评 

定 为 优秀 或 很 好 的 比例 ， 包 括 岸 上 观光 和 食品 / 餐 

饮 。 表 中 还 给 出 了 总 得 分 和 进行 等 级 排序 的 游轮 。 

Seabourn Odyssey 是 排名 最 高 的 游轮 ， 总 得 分 为 


94.4， 其 中 得 分 最 高 的 是 食品 /餐饮 项 ， 为 97.8。 


岸上 观 。“ 食品 / 餐 

游轮 名 称 总 得 分 光 得 分 饮 得 分 
Seabourn Odyssey 94.4 90.9 97.8 
Seabourn Pride 93.0 84. 2 96.7 
National Geographic Endeavor 92.9 100.0 88. 5 
Seaboun Sojourn 91.3 94.8 97. 1 
Pau!l Gauguin 90. 5 87.9 91. 2 
Seabourn Legend 90.3 82. 1 98. 8 
Seabourn Spirit 90. 2 86. 3 92.0 
Silver Explorer 89.9 92.6 88. 9 
Silver Spirit 89. 4 85,9 90.8 
Seven Seas Navigator 89. 2 83.3 90, 5 
Silver Whisperer 89.2 82.0 88.6 
National Geographic Explorer 89. 1 93.1 89.7 
Silver Cloud 88.7 78: 3 .3 
CelebrityXpedition 87.2 91.7 73,6 


Silver Shadow 87.2 75. 0 89.7 


第 15 章 多 元 回归 361 


( 续 ) 
A 
游轮 名 称 大 得 分 。 关公 oe 

Silver Wirud 86. 6 78. 1 91. 6 
Sea Dream 下 86. 2 TF;4 90.9 
Wind Star 86. 1 76,5 91.5 
Wind Surf 86. 1 3 89. 3 
Wenad Spirt 85. 2 77.4 91.9 


a、 建立 估计 的 回归 方程 ， 使 这 个 方程 在 岸上 观光 得 
分 已 知 时 ， 能 用 来 预测 游轮 的 总 得 分 。 

b. 考虑 增加 食品 /餐饮 得 分 为 自 变量 。 建 立 估计 的 
回归 方程 ， 使 这 个 方程 在 岸上 观光 得 分 和 食品 / 
餐饮 得 分 已 知 时 ， 能 用 来 预测 游轮 的 总 得 分 。 

c, 对 于 一 艘 岸上 观光 得 分 为 80 分 ， 食 品 /餐饮 得 分 
为 90 的 豪华 游轮 ， 预 测 该 游轮 的 总 得 分 。 


10. 美国 职业 棒球 大 联盟 由 美国 联盟 和 国家 联盟 的 球 


队 组 成 。 它 们 收集 了 球 队 和 球员 的 各 种 各 样 的 统计 
数据 。 经 常用 来 评价 投球 表现 的 一 些 统计 量 如 下 : 
ERA (投手 责任 失 分 率 ): 每 九 局 比赛 中 ， 由 

于 投手 投球 的 责任 造成 对 方 得 分 的 平均 次 数 。 投 手 

责任 失 分 是 由 于 投手 的 因素 所 造成 的 失 分 ， 而 由 于 

防守 失误 使 对 方 驳 甜 者 上 和 垒 所 失 的 分 数 不 记 为 投 

手 责 人 尾 失 分 。 

SO/IP: 每 局 比赛 投手 使 对 方 击 球员 三 击 未 中 出 局 
的 平均 次 数 。 

HR/IP: 每 局 比赛 投手 被 对 方 击 球员 本 和 倒 打 的 平均 
次 数 。 

R/IP: 每 局 比赛 的 投手 平均 责任 失 分 。 

由 2011 赛季 美国 联盟 的 20 名 投手 组 成 一 个 随机 样 

本 ， 上 述 这 些 统 计量 的 数值 如 下 表 所 示 ( MLB 

website，2012 年 3 月 1 日 )。 


投手 球 队 名 称 胜 负 ERA SO/IP HR/IP R/IP 


Verlander, J DET 24 3 ZW BO O10 0.2 
Beckett, J BOS 3 SR 2 ro 0” 034 
Wilson, C TEX I@O = 04 ON 00 0040 
Sabathia, C NYY 19™ 8 -300 T0999 0. 有 二 .0.37 
Haren, D LAA it 10 3: 的 QS81 10.08 0438 


McCartthy, B OAK 9 9 3.32 07 0.0 0.43 
Santava, E LAA ‘11 12 338 2378 011 ‘0.42 
Lester, J BOS 15 9 347 0.95 0.10 0.4 
Hamandez; F SEA ' 44 =14 347- 05951 0.08' 0.42 
Buehde,M :CWS 13~ 9 3.59 053 0.10 0:45 


362 | 。 商务 与 经 济 统计 





8 ( 续 ) 每 局 比赛 被 对 方 击 球员 本 和 刍 打 的 平均 次 数 巴 知 
Em -证 - 球 队 名 称 胜 负 ERA SO/IP HR/IP R/IP 时 ,能 用 来 预测 每 局 比赛 的 投手 平均 责任 
de os 9 10 324 “Wol 0.11 ‘G44 类 分 。 
Gilon,B ' NYY 98 10 400 0.82 01013710.52 “0; 建立 估计 的 回归 方程 ， 使 这 个 方程 在 投手 每 局 
Tomlin, J CE TH 7 4.25 0.541 015 M0648 比赛 使 对 方 击 球员 三 击 未 中 出 局 的 平移 次 数 和 
Pavaioa Cs MN 水 和 C66 WE 被 对 方 击 球员 本 笃 打 的 平均 次 数 已 知 时 ， 能 用 
Danks, J CWS J 2 9 ,0:79 OARTO 52 来 预测 每 局 比赛 的 投手 平均 责任 失 分 
下 d， 太 下 Burnett 是 New York Yankees 队 的 一 名 投手 ， 


LewissC TEX 14 10 440 084 0.17 051 


pa Ds 9 443 Wed 0 1S ne 
i 平均 次 数 是 0. 91， 被 对 方 击 球员 本 盘 打 的 平均 
Davis, W TB 


Porcello, RDET 0 9 475 057 0.10 0.57 次 殊 是 0316。 利用 存活 oj 加 建立 网 估计 的 回归 
,A 方程 来 预测 该 名 投手 在 每 局 比赛 中 的 平均 责 


他 在 每 局 比赛 中 使 对 方 击 球员 三 击 未 中 出 局 的 





a. i 使 这 个 方程 浴 投 手 任 失 分 。( 注意 5 不 二 Bumett 在 每 局 比赛 中 的 实 
每 局 比赛 使 对 廊 击 球员 三 击 未 中 出 局 的 平均 次 ”“ 际 平 均 责 任 失 分 为 0.6) 
数 书 知 时 ;能 用 数 预 测 每 后 比赛 的 投手 平均 责 。 6 假设 有 人 建议 : 在 (ec) 中 还 使 用 ERA (投手 责 
加 z 任 失 分 率 ) 作为 另 一 个 自 变量 。 你 怎么 看 待 这 
| bw 建立 二 个 估计 的 回归 方程 ， 使 这 个 方程 在 投手 。 ”个 建议 ? ， 
15.3 





,在 简单 线性 四 天 中 我 们 已 经 说 明了 总 的 平方 和 能 被 分 解 为 两 部 分 : 回归 平方 和 及 误差 平方 和 。 同样 的 
方法 也 能 应 用 到 多 元 回归 平方 和 的 情形 。 





mip 去 公司 问题 ， a hi 的 方 着 分 师 部 愉 基 出 于 这 三 让 SST =23; 900, 
SSR=21:601 和 -SSE =2 299。 当 仅 有 一 个 自 变量 【每 天 运送 货物 的 行驶 里 程 ) 时 ， 图 15-3 的 Minitab 输出 给 出 了 
SST=23. 900，SSR = 15. 871 和 [SSE = 8. 029。 在 这 两 种 情形 下 ，SST 的 值 是 相同 的 ， 因 为 它 不 依赖 于 7 了 。 但 是 当 第 
也 全 生变 把 人 《5 运 送 货物 的 次 数 ) 进入 模型 后 ， SSR 增加 而 SSE 减少 。 这 就 意味 着 ， 估计 的 多 元 回归 方程 对 观测 数 
Rk | 的 拟 合 

在 第 14 章 里 我 们 利用 判定 系数 =8SR/SST 来 度量 估计 的 回归 方程 的 拟 合 优 度 。 我 们 将 同样 的 概念 应 用 到 
多 元 回归 的 情形 。 术语 多 元 判定 系数 (multiple coefficient of determination ) 表示 的 是 对 估计 的 多 元 回归 方程 拟 合 优 
度 的 度量 。 我 们 用 DE Seek 








+ 我 们 能 把 岁 元 判定 系数 RR 理 解 为 应 变量 y 中 的 变异 性 能 被 估计 的 多 元 回归 方程 解释 的 比例 。 将 这 个 比 
例 乘 以 100, 我 们 就 能 把 多 元 判定 系数 姑 理 解 为 应 变量 y 中 的 变异 性 能 被 舍 计 的 多 元 回归 方程 解释 的 百 
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分 姥 = 
对 于 有 两 个 目 变量 的 Bitler 运输 公司 的 例子 ， 因 为 SSR =21. 601，SST = 23, 900， 我 们 有 
县 到- 
a 


所 以 ， 在 运输 车 辆 行驶 时 间 y 中 变异 性 的 90. 4% ， 能 用 运送 货物 的 行驶 里 程 和 运送 货物 的 次 数 作 自 变量 的 估 
计 的 多 元 回归 方程 解释 。 在 图 15-4 中 我 们 看 到 ，Minitab 输出 还 给 出 了 多 元 判定 系数 (表示 为 一 个 百分数 ) ， 被 表 
示 为 R-Sq=90.4% 。 

对 于 仅 有 一 个 自 变 量 ， 即 每 天 运送 货物 的 行驶 里 程 (x, ) 的 估计 的 多 元 回归 方程 ,图 15-3. 给 出 了 RSq 的 
值 是 66.4%。 于 是 ， 当 运送 货物 的 次 数 作为 第 二 个 自 变量 进入 模型 后 ， 运 输 车 辆 行驶 时 间 y 的 变异 性 中 能 被 估计 
的 多 元 回归 方程 解释 的 百分比 由 66. 4% 增 加 到 90. 4% 。 在 一 般 情形 下 ，R 总 是 随 着 新 的 自 变量 不 断 地 进入 模型 而 
增加 。 

由 于 增加 自 变 量 将 影响 到 应 变量 中 的 变异 性 被 估计 的 回归 方程 解释 的 百分比 ， 为 了 避免 高 估 这 一 影响 ， 许 多 
分 析 学 家 提出 用 自 变量 的 数目 去 修正 RR 的 值 。 用 表示 观测 值 的 数 目 , p 表示 目 变 量 的 数目 ， 修 正 多 元 判定 系数 
Ce Me coefficient of ti dg RE 


i 
hn ~ £0 ry 


ow pe 区 和 
重 -< Wr 一 F 本 本 = | | 和 3 | 4 i Se 
on 2 Sd a 






加 ”和 i WM 





对 于 Butler 运输 公司 的 例子 ，n =10，p =2， 我 们 有 
R. =1— (1=0.904) 


—] 





> i 88 


于 是 ， 对 于 有 两 个 自 变 量 的 多 元 判定 系数 进行 修正 后 ， i 0. 88。 在 图 15-4 中 ， 
这 一 数值 (表示 为 一 个 百分数 ) 由 Minitab 输出 给 出 ， 它 被 表示 为 R - Sq(adj) =87.6%; 这 一 数值 与 我 们 的 计算 
结果 不 一 样 ， 这 是 因为 我 们 在 计算 时 ， 用 的 是 R 四 舍 五 人 的 数值 。 


注释 和 评论 


如 果 尺 的 数值 比较 小 ， 而 模型 所 包含 的 自 变量 的 数目 比较 大 时 ,修正 多 元 判定 系数 可 能 取 负 值 ， 在 这 种 情形 
下 ，Minitab 将 把 修正 多 元 判定 系数 的 数值 调整 为 0。 





oy 
-| I ”i 





方法 应 用 


六 12. 在 第 2 题 中 ， 给 出 了 应 变量 y 和 两 个 自 变量 %1，%。 ”14. 在 第 4 题 中 ,我 们 给 出 了 销售 收入 关于 存货 投资 和 
的 10 次 观测 结果 ; 对 这 些 数据 我 们 计算 出 SST = 广告 费用 的 估计 的 回归 方程 如 下 。 
15 182.9, SSR =14052. 2。 7 了 =25 + 10x, +8x, 
a 评 湖 谍 。 通过 对 10 家 鞋 店 的 一 次 统计 调查 ， 得 到 了 用 于 建 
hb 计算 芝 -。 立 模型 的 数据 ; 对 这 些 数据 ， 我 们 计算 出 SST = 
c. 估计 的 回归 方程 是 否 解释 了 数据 中 的 大 部 分 变 16 000，sSSR =12 000 。 
异性 ? 请 作出 解释 - a. 对 于 已 给 的 估计 的 回归 方程 ， 计 算 有 尺 。 


加 增加 自 变量 将 使 预测 庶 差 变 得 比较 小 ， 从 而 减少 误差 平方 和 SSE。 因 为 SSR = SST - SSE， 当 SSE 变 得 比较 小 时 ，SSR 就 变 得 比较 
大 ， 从 而 使 得 RE =SSR/SST 增加 。 

加 如果 模 型 增加 一 个 自 变 量 ， 即 使 这 个 增加 的 自 变 量 在 统计 上 并 不 显著 ，R 也 将 变 得 比较 大 。 修 正 多 元 判定 系数 抵消 了 模型 中 自 变 量 
个 数 的 影响 。 
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b, 种 村 瑟 。 得 到 的 估计 的 回归 方程 的 优点 。 
c. 估计 的 回归 方程 是 否 解释 了 数据 中 的 大 部 分 变 ”18. 在 第 10 题 中 ,我 们 已 经 得 到 了 由 2011 赛季 美国 联 
异性 ? 请 作出 解释 。 盟 的 20 名 投手 组 成 的 一 个 随机 样本 ， 以 及 有 关 这 些 
16. 在 第 6 题 中 ， 对 于 由 16 支 美国 国家 橄榄 球 联盟 投手 的 统计 量 (MLB website，2012 年 3 月 1 日 )。 
(NFL) 的 球 队 组 成 一 个 随机 样本 ,我 们 给 出 了 这 a 在 第 10 题 的 (c) 中 ， 我 们 已 经 建立 了 一 个 估 
些 球 队 在 2011 年 赛季 每 决 进攻 的 平均 传 球 码 数 计 的 回归 方程 ， 该 方程 在 投手 每 局 比赛 使 对 方 
(Yds/Att)、 每 次 进攻 被 守 方 拦截 的 次 数 (Int/ Att) 击 球员 三 击 未 中 出 局 的 平均 次 数 和 被 对 方 击 球 
和 比赛 的 获胜 率 (Win%) 数据 (NFL website， 员 本 人 熏 打 的 平均 次 数 已 知 时 ， 能 用 来 预测 每 局 
oi 光政 且 0 1 ”比赛 的 投手 平均 责任 失 分 。 尼 和 惨 的 数值 是 
a 如果 仅仅 利用 球 队 每 次 进攻 的 平均 传 球 码 数 多 少 ? 
(Yds/Att) 作为 自 变 量 来 预测 球 队 比赛 的 获胜 b. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ? 请 作 
率 ， 这 样 得 到 的 估计 的 回归 方程 ， 能 否 给 出 一 出 解释 。 
个 好 的 拟 合 7? “6 假定 在 (ce) 中 ， 用 投手 责任 失 分 率 (ERA) 作 
b. 如 果 利 用 球 队 每 次 进攻 的 平均 传 球 码 数 (Yds/ 为 应 变量 ， 来 蔬 代 每 局 比赛 的 投手 平均 责任 失 
Att) 、 每 次 进攻 被 守 方 拦截 的 次 数 (Int/Att) 两 分 。 利 用 ERA 得 到 的 估计 的 回归 方程 对 观测 数 
个 自 变量 来 预测 球 队 比赛 的 获胜 率 ， 讨 论 这 样 据 的 拟 合 好 吗 ? 请 作出 解释 。 


15. 4 ”模型 的 假定 
在 第 15. 1 节 中 ,我们 引入 了 式 (15:10) 形式 的 多 元 回归 模型 。 










在 多 元 回归 模型 中 ， 关 于 误差 项 s 的 假定 与 简单 线性 回归 模型 的 那些 假定 相似 。 
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为 了 对 由 式 (15-11) 给 出 的 关系 式 的 形式 有 更 深入 的 了 解 ， 我 们 考虑 下 面 含 有 两 个 自 变量 的 多 元 回归 方程 。 
E(y) =Bo +Bix, +B,%, 
这 个 方程 的 图 形 是 三 维 空间 的 一 个 平面 。 图 15 污 给 出 了 这 样 一 个 图 形 的 例子 。 注 意 ， 在 图 中 ， 当 x, =xr ， 
x =xz 时 ，s 是 y 的 实际 观测 值 和 y 的 期 望 值 E(y) 之 间 的 差 。 
| 当 六 三 和 入 = 苔 村 》 的 值 


hb 


& 当 xw= 训 和 w= 台 时 ，E(y) 的 值 


对 应 于 E (y)= + 局 所 + 应 交 的 平面 
| 
I - 
XI 
x, Te 
XI 


对 应 于 训 = 台 和 太 = 蕊 的 点 
图 15-5 具有 两 个 自 变 量 的 多 元 回归 分 析 问 题 的 回归 方程 图 形 


在 回归 分 析 中 ， 我 们 经 常用 术语 响应 变量 代替 术语 应 变量 。 此 外 ， 因 为 多 元 回归 方程 生成 一 个 平面 或 是 一 个 
曲面 ， 所 以 我 们 把 它 的 图 形 称 为 响应 曲面 


15.5 显著 性 检验 


在 这 一 节 我 们 将 说 明 ， 如 何 对 多 元 回归 关系 进行 显著 性 检验 。 在 简单 线性 回归 情形 中 ， 我 们 应 用 上 检验 和 下 
检验 进行 显著 性 检验 。 在 简单 线性 回归 情形 ， 这 两 个 检验 给 出 了 同样 的 结论 ; 也 就 是 ， 如 果 原 假设 被 拒绝 ， 我 们 
的 结论 是 B, 头 0。 而 在 多 元 回归 情形 中 ， 进 行 + 检 验 和 FF 检验 的 目的 是 不 同 的 。 

(1) 检验 用 于 确定 在 应 变量 和 所 有 上 自 变量 之 间 是 否 存 在 一 个 显著 性 的 关系 ; 我 们 把 下 检验 称 为 总 体 的 显著 
性 检验 。 

(2) 如 果 一 检验 已 经 表明 了 模型 总 体 的 显著 性 ， 那 么 上 检验 用 于 来 确定 每 一 个 单个 的 自 变 量 是 否 为 一 个 显著 
的 目 变 量 。 对 模型 中 每 一 个 单个 的 自 变 量 ， 都 要 单独 地 进行 检验; 我 们 把 每 一 个 这 样 的 上 检验 都 称 为 单个 的 显 
著 性 检验 。 

在 以 下 内 容 中 ， 我们 将 对 检验 和 1 检验 加 以 解释 ， 并 将 这 两 个 检验 应 用 于 Butler 运输 公司 的 例子 上 。 


15.5.1 三 检 验 
在 第 15.4 节 中 定义 的 多 元 回归 模型 是 
y=Bo +Bixi +Brs + +B x +E 
F 检验 的 假设 与 多 元 回归 模型 的 参数 有 关 。 
Hou: Ap = 用 = = 应 =0 
HH,: 至 少 有 一 个 参数 不 等 于 堆 
如 果 原 假设 H 被 拒绝 ， 那 么 我 们 就 有 足够 的 统计 证 据 断 定 ， 至 少 有 一 个 参数 不 等 于 零 ， 并 且 应 变量 y 和 所 
有 自 变量 x ，x,，…,%, 之 间 的 关系 在 总 体 上 是 显著 的 。 如 果 原 假设 H, 没有 被 拒绝 ,我 们 就 没有 足够 的 理由 认 
为 ,， y 和 加 ，…，*, 之 间 存 在 一 个 显著 的 关系 。 
在 叙述 尺 检 验 的 步骤 之 前 ， 我 们 需要 回忆 一 下 的 方 的 概念 。 均 方 是 一 个 平方 和 除 以 它 所 对 应 的 自由 度 。 在 多 
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元 回归 情形 中 ， 总 的 平方 和 有 n=1 个 自由 度 ， 回 归 平 方 和 SSR 有 pp 个 自由 度 ， 误差 平方 和 SSB 有 np-1 个 自由 
度 。 因 此 ， 均 方 回 归 (MSR) 是 SSR/p， 均 方 误 差 (MSE) 是 SSE/(n-p-1)。 


MSR = (015-12) 
利 

ya SR 

MSE = (15-13) 


根据 在 第 14 章 中 讨论 的 结果 ，MSE 给 出 了 误差 项 e 的 方差 的 一 个 无 偏 估计 量 。 如 果 原 假设 H,: B, = 
PB, =… =B, =0 成 立 ，MSR 也 给 出 了 oo 的 一 个 无 偏 估计 量 ， 并且 MSR/MSE 的 值 将 接近 于 1。 但 是 ， 如 果 原 假设 
Hu 被 拒绝 ，MSR 将 高 估 oc? ， 这 时 MSR/MSE 的 值 将 变 得 比较 大 。 为 了 确定 需要 多 么 大 的 MSR/MSE 的 值 就 能 拒绝 
H。， 我 们 利用 这 样 一 个 事实 : 如 果 H 成 立 并 和 且 有 关 多 元 回归 模型 的 假定 都 成 立 ， 那 么 MSR/MSE 的 抽样 分 布 是 一 
个 分 子 的 自由 度 为 p， 分母 的 自由 度 为 n-p -1 的 下 分 布 。 对 于 多 元 回归 情形 ， 显 著 性 玉 检 验 的 步骤 如 下 。 





pe Butler 运输 公司 的 多 元 回归 问题 。 因为 有 两 个 自 变量 ， 所 以 我 们 把 检验 的 假设 写成 如 
下 形式 。 
Ho: B, =B, = 
六 i 一 个 不 等 于 零 
”图 15-6 是 用 每 天 运送 货物 的 行驶 里 程 x,) 和 运送 货物 的 次 数 〈x。) 作为 自 变量 的 多 元 回归 模型 的 Minitab 
计算 机 输出 。 在 Minitab 输出 的 方差 分 析 部 分 ， 我 们 看 到 MSR = 10.8， MSE =0. 328。 利 用 式 (15- 14) ,我们 得 到 
检验 的 统计 量 回归 方程 是 销售 者 
-10.8 32.9 Time=-0.869+0:061 1 Miles+0.923 Deliveries 
0. 328 
注意 ，Minitab 输出 的 严 值 是 32. 88， 与 我 们 算出 的 数值 不 同 ， we be Bs 
这 是 由 我 们 在 计算 过 程 中 使 用 了 MSR 和 MSE 的 四 舍 五 人 近似 值 引 | Miles 0061 135 0.009888 6.18 0.000 
起 的 。 对 于 a=0.01 的 显著 性 水 平 ， 在 图 15-6 方差 分 析 部 分 的 最 | Deliveries 09234 1 02211 4.18| 0.004 
后 一 列 我 们 看 到 产值 =0. 000， 因 为 p- 值 小 于 0;01， 所 以 应 该 拒绝 | s-0.573 142 R-Sq=90.49% R-Sq(adj)=87.6% 
H, 。 换 一 种 叙述 方式 ， 我 们 还 可 以 从 附录 B 的 表 B-4 中 ， 查 到 分 子 
自由 度 为 2， 分 母 自由 度 为 7 的 下 分 布 上 侧 分 位 数 丙 w =9.55。 因 
为 32.9 >9. 55 ， 所 以 我 们 应 该 拒绝 H,: B, =B; =0， 并 且 得 出 结论 : | 
在 每 天 行驶 的 时 间 y 和 每 天 运送 货物 的 行驶 里 程 x, 、 运 送 货物 的 次 “| 误 
数 x, 这 两 个 自 变量 之 间 存 在 一 个 显著 关系 。 [ 
前 面 已 经 提 到 ， 均 方 误差 MSE 给 出 了 误差 项 = 的 方差 中 的 二 “图 15-6 以 行 驶 里 程 (x;) 和 运送 货物 
个 无 偏 估 计量 。 从 图 15- 6 中 我 们 看 到 ，o 的 估计 量 是 MSE = 次 数 () 为 自 变量 的 = 


po 
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0. 328。MSE 的 平方 根 是 误差 项 s 标准 差 的 估计 。 就 像 在 第 14. 5 节 中 所 定义 的 那样 ， 我 们 把 这 个 标准 差 称 为 估计 
的 标准 误差 ， 并 且 用 * 表示 。 因此 我 们 有， = /MSBE= /0328 =0. 573, 注意 ， 在 图 15-6 的 Minitab 计算 机 输出 中 ， 
列 出 了 估计 的 标准 误差 的 值 。 

表 15-3 是 一 般 的 方差 分 析 表 (ANOVA) ， 它 给 出 了 多 表 15-3 具有 p 个 自 变 
元 回归 模型 玉 检 验 的 结果 。 玉 检验 统计 量 的 数值 在 表 的 最 ”方差 来 源 ”平方 和 ”自由 度 
后 一 列 ， 我 们 把 它 和 分 子 自由 疫 为 p, 分 母 自由 度 为 。 A | i 
n-p-1 的 a 水 平 的 分 布 上 侧 分 位 数 FF, 进行 比较 ， 从 而 小 党 尺 作 | PN 









得 出 假设 检验 的 结论 。 和 次 审视 图 15-6 中 的 Buler 运 输 公 gp。 ssp ,1 Wop- 
司 的 Minitab 输出 ， 我 们 很 快 发 现 Minitab 的 方差 分 析 表 里 \ er 
和 包含 了 这 些 信 息 。 此 外 ;Minitab 输 出 还 给 出 了 对 应 于 检 名 和 S57 "1 

验 统计 量 的 p- 值 。 

aS2 1 检验 


-如果 下 检验 显示 于 多 元 回归 关系 在 总 位 上 是 显 郑 的， 那么 ep 
问题. lire i saa ti 


4 :二 攻 一 演 





WI 


在 检验 统计 量 的 公式 里 ， 5 是 b, 标准 差 的 估计 ，s。 的 值 是 由 计算 机 软件 包 提供 的 。 
让 我 们 将 t 检验 用 于 Butler 运输 公司 的 多 元 回归 问题 。 对 于 1 统计 量 比 值 的 计算 ,我 们 可 以 参考 图 15-6 中 的 
Minitab 输出 的 有 关 部 分 。5, ，b,，s, 和 s; 的 值 如 下 。 : 
bi = 0.061 135 s, = 0.009 888 
i= 09234 so =0:2211 
和 于 参数 记 和 及 的 候 没 检 | 我 们 利用 式 (15-15) ， 就 能 得 到 检验 的 统计 量 。 
t= .0. 061 135/0. 009 888 = 6.18 


t= 0.923 470.2211 = 4.18 

注意 ， 这 两 个 1; 值 和 对 应 的 p- 值 都 由 图 15-6 的 Minitab 输出 给 出 。 对 于 显著 性 水 平 =0.01，Minitab 输出 给 
出 的 p- 值 分 别 为 0.000 和 0.004， 所 以 我 们 应 该 拒绝 也 : B =0 和 了 机: B, =0。 因 此 ， 这 两 个 参数 在 统计 上 都 是 显著 
的 。 换 一 种 叙述 方式 ， 对 于 显著 性 水 平 we =0.01， 我们 还 可 以 从 附录 B 的 表 B-2 中 ， 查 出 自由 度 为 mn-P-1=10-2-1= 
7 的 1 分 布 的 双 侧 分 位 数 二 w=3.499。 因 为 6.18 >3.499， 所 以 我 们 应 该 拒绝 Hu: B, =0。 类 似 地 ， 因 为 4.18 > 
3. 499 ， 所 以 我 们 应 该 拒绝 Ho: B, =0。 
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15. 5.3 多重 共 线 性 


在 回归 分 析 中 ， 我 们 曾经 使 用 自 变量 这 个 术语 来 表示 用 于 预测 或 者 解释 应 变量 值 的 那些 变量 。 但 是 这 个 术语 
并 不 意味 着 ,这 些 自 变量 本 身 在 某 种 统计 意义 上 是 独立 的 。 相 反 ， 在 多 元 回归 问题 中 ， 大 部 分 自 变量 在 某 种 程度 
上 是 相互 关联 的 = 例如 ， 在 涉及 两 个 自 变 量 x，( 每 天 运送 货物 的 行驶 里 程 )》 和 x，( 运 送 货物 的 次 数 ) 的 Butler 运 
输 公司 的 例子 中 ， 我 们 可 以 把 行驶 里 程 看 作 应 变量 ， 把 运送 货物 的 次 数 看 作 自 变 量 ， 来 确定 这 两 个 变量 本 身 是 否 
是 相关 的 。 为 此 我 们 计算 它们 的 样本 相关 系数 r,, ， 然 后 确定 这 两 个 变量 相关 的 程度 。 样 本 相关 系数 计算 的 结果 
是 =. =0.16。 于 是 ,我 们 发 现在 这 两 个 自 变量 之 间 存 在 某 种 程度 的 线性 联系 。 在 多 元 回归 分 析 中 ,我 们 把 自 变 
量 之 间 的 相关 性 称 为 多 重 共 线 性 (multicollinearity ) 。 

为 了 对 多 重 共 线 性 的 潜在 影响 给 出 一 个 更 好 的 全 面 描述 ， 我 们 考虑 对 Butler 运输 公司 的 例子 做 一 些 修改 。 我 们 
不 用 x, 表示 运送 货物 的 次 数 ， 而 用 x, 表示 消耗 汽油 的 加 仑 量 。 显 然 ， x，( 每 天 运送 货物 的 行驶 里 程 )》 和 % 是 相 关 的 ， 
即 我 们 认为 消耗 汽油 的 加 仓 数量 依赖 于 行驶 的 里 程 。 因 此 ， 从 逻辑 上 我 们 能 认定 x, 和 x, 是 高 度 相关 的 自 变 量 。 

假定 ,我们 已 经 建立 了 估计 的 回归 方程 ?=m + bx, + b,x,， 并 且 下 检验 显示 了 多 元 回归 关系 在 总 体 上 是 显著 
的 。 然 后 ， 假 定 我 们 进行 关于 8B 的 :检验 来 断定 B, 去 0 是 否 成 立 。 如 时 我 们 不 能 拒绝 H,: B, =0， 这 个 结果 是 否 意 
味 着 每 天 运送 货物 行驶 的 时 间 不 依赖 于 行驶 的 里 程 呢 ?不 一 定 。 它 很 可 能 意味 着 ， 由 于 % 已 经 在 模型 里 ， 所 以 x 
对 决定 y 的 数值 已 经 不 再 有 显著 的 贡献 了 。 在 我 们 的 例子 里 ， 这 一 解释 是 能 够 讲 通 的 ， 因 为 如 果 我 们 已 经 知道 了 
消耗 汽油 的 数量 ， 在 预测 y 的 数值 时 ， 我 们 就 不 需要 再 增加 更 多 的 有 关 行驶 里 程 的 有 用 信息 了 。 类 似 地 ， 通 过 1 
检验 可 能 导致 我 们 得 出 B, =0 结论 ， 由 于 xi, 已 经 在 模型 里 ， 所 以 我 们 也 不 再 需要 增加 更 多 的 有 关 消耗 汽油 数量 的 
信息 了 。 

综 上 所 述 ， 在 对 单个 参数 的 显著 性 进行 :检验 时 ， 由 于 多 重 共 线 性 而 带 来 的 困难 是 : 当 多 元 回归 方程 总 体 显 
著 性 的 下 检验 表明 有 一 个 显著 的 关系 时 ， 我 们 可 能 得 出 单个 参数 没有 一 个 是 显著 地 不 同 于 零 的 结论 。 只 有 当 自 变 
量 之 间 的 相关 性 非常 小 的 时 候 ， 才 有 可 能 回避 这 个 问题 。 

为 了 确定 多 重 共 线性 是 否 对 模型 的 估计 产生 十 分 严重 的 后 果 ， 统 计 学 家 已 经 提出 了 一 些 不 同 的 检验 方法 。 对 
于 任何 一 个 含有 两 个 自 变量 的 多 元 回归 模型 ， 如 果 它 们 的 样本 相关 系数 的 绝对 值 大 于 0.7, 那么 依照 经 验 的 检验 
方法 ,多重 共 线 性 有 可 能 成 为 一 个 潜在 的 问题 .还 有 一 些 更 精确 的 检验 方法 ， 但 这 些 方法 已 经 超出 了 本 教科 书 讨 
论 的 范围 。 

如 果 可 能 的 话 ， 我 们 应 尽 一 切 努 力 避 免 在 模型 中 包含 高 度 相关 的 自 变 量 。 但 是 ， 在 实际 上 我 们 很 少 有 可 能 绝 
对 坚持 这 一 策略 。 决 策 者 已 经 得 到 告 诚 ， 当 他 们 有 理由 相信 存在 严重 的 多 重 共 线性 时 ， 识 别 单个 的 自 变 量 对 应 变 
量 的 影响 将 是 一 件 非常 困难 的 事情 .S 


注释 和 评论 

通常 ， 在 对 某 个 问题 进行 研究 时 ， 多 重 共 线性 对 我 们 进行 的 回归 分 析 ， 或 者 对 计算 机 输出 结果 的 解释 都 不 会 
产生 影响 。 但 是 ， 当 存在 严重 的 多 重 共 线性 时 一 一 也 就 是 ， 当 两 个 或 两 个 以 上 的 自 变量 相互 高 度 相 关 时 一 如 果 
我 们 对 单个 参数 进行 上 检验 ， 并 对 1 检验 的 结果 进行 解释 时 ， 就 可 能 出 现 困 难 。 除 了 在 杰 节 说 明 的 问题 外 ， 严 重 
的 多 重 共 线 性 可 能 导致 最 小 二 乘 估 计 出 现 错误 的 符号 a 也 就 是 说 ， 在 模拟 研究 中 ， 研 究 者 设计 了 基本 的 回归 模 
型 ， 接 着 利用 品 小 二 来 法 求 出 参数 B,，B;，B,，;，'“， 的 估计 值 ， 但 是 在 高 度 多 重 共 线 性 的 条 件 下 ， 最 小 二 来 估计 
值 可 能 与 被 估 参 数 有 一 个 完全 相反 的 符号 。 例 如 ， 真 实 的 Bi 可 能 是 +10， 而 它 的 估计 值 如 却 是 一 2。 于 是 ， 如 果 
存在 高 度 的 多 重 共 线 性 ， 我 们 应 能 对 个 别 系数 的 答 号 作出 一 些 约定 。 


旬 “ 对 于 有 两 个 自 变量 的 情形 ， 可 能 产生 多 重 共 线性 潜在 影响 的 一 个 比较 粗略 的 估计 方法 是 : 如 果 它 们 的 样本 相关 系数 大 于 0,7 或 者 小 
-Ts 
巴 当 自 变量 是 高 度 相关 时 ， 不 可 能 确定 任 一 特定 的 自 变 量 对 应 变量 的 单独 影响 。 





20. 参阅 在 第 2 题 中 给 出 的 数据 。 利 用 这 些 数据 我 们 建 
立 的 估计 的 回归 方程 是 
y = 一 18.37 +2.01x， +4.74x, 
这 于 SBT =15 182,9, SSR = 1 和 052.2，5 =0247 
1 和 s, =0.9484。 
a, 在 a=0.05 的 显著 性 水 平 下 ， 检 验 x， x;, 和 yy 之 
间 的 显著 性 关系 。 
b, 在 aQ=0.05 的 显著 性 水 平 下 ，B 是 显著 的 吗 ? 
c. 在 a=0.05 的 显著 性 水 平 下 ， 甩 是 显著 的 吗 ? 
应 用 
22. 在 第 4 题 中 ， 我 们 给 出 了 销售 收入 关于 存货 投资 和 
广告 费用 的 估计 的 回归 方程 如 下 。 
y = 25 + 10x, + 8x, 
通过 对 10 家 鞋 店 的 一 次 统计 调查 ， 得 到 了 用 于 
建立 模型 的 数据 ; 对 这 些 数据 ， 我 们 计算 出 SST = 
16 000，SSR = 12 000。 
a. 计算 SSE，MSE 和 MSR。 
b. 在 a=0.05 的 显著 性 水 平 下 ， 利 用 下 检验 去 确 
定 ， 在 这 些 变量 之 间 是 和 否 存在 一 个 显著 的 关系 。 
24. 《华尔街 日 报 》 在 全 美 一 流 大 学 中 进行 了 一 项 有 关 
篮球 经 费 的 研究 。 参 加 国家 顶级 篮球 项 目的 39 支 
球 队 的 收入 (100 万 美元 )、 获 胜 比 例 和 教练 新 酬 
(100 万 美元 ) 的 部 分 数据 如 下 所 示 (The Wall 
Street Journal,，2006 年 3 月 11~12 日 ) 
a 建立 了 一 个 估计 的 回归 方程 ,使 该 方程 在 球 队 
参加 国家 篮球 项 目 得 到 的 收入 和 球 队 获胜 的 比 
例 已 知 时 ， 能 用 来 预测 球 队 教练 的 薪酬 。 


15.6 应 用 估计 的 回归 方程 进行 估计 和 预测 
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b. 在 a=0.05 的 显著 性 水 平 下 ,利用 检验 来 确 
定 这 些 变量 之 间 的 关系 在 总 体 上 的 显著 性 。 你 
的 结论 是 什么 ? 

c 在 a=0.05 的 显著 性 水 平 下 ,利用 睛 检验 来 确定 
每 一 个 自 变 量 的 显著 性 。 浆 的 结论 是 什么 ? 


学 可 称 。 《in 万 英才 。(%) ”000 万 美元 
Alabama 6.5 61 1. 00 
Arizona 16.6 63 0. 70 
Arkansag 用 有 72 0. 80 
Boston College 3,. 4 80 0. 53 
Washington 5.0 83 0. 89 
West Virginia 4.9 67 0. 70 
Wichita State 3 舌 75 0.41 


Wisconsin 12.0 66 0.: 70 


26. 在 第 10 题 中 ， 由 美国 职业 棒球 大 联盟 2011 赛季 的 
20 名 投手 组 成 了 一 个 随机 样本 ,并 且 给 出 了 这 些 
投手 的 几 个 统计 量 数 值 。 在 第 10 题 的 (c) 中 ， 
建立 了 一 个 估计 的 回归 方程 ， 该 方程 在 投手 每 局 比 
赛 使 对 方 击 球员 三 击 未 中 出 局 的 平均 次 数 和 被 对 
方 击 球员 本 和 佳 打 的 平均 次 数 已 知 时 ， 能 用 来 预测 每 
局 比赛 的 投手 平均 责任 失 分 。 

a 在 a=0.05 的 显著 性 水 平 下 ,利用 下 检验 来 确 
定 这 些 变量 之 间 关 系 的 总 体 显 著 性 。 你 的 结论 
是 什么 ? 

b. 在 m=0.05 的 显著 性 水 平 下 ， 利 用 大 检验 来 确定 
每 一 个 自 变量 的 显著 性 。 你 的 结论 是 什么 ? 


在 多 元 回归 分 析 中 ,估计 y 的 平均 值 和 预测 y 的 一 个 个 别 值 的 步骤 ， 与 包含 一 个 自 变量 的 回归 分 析 所 进行 的 
那些 步骤 类 似 。 首 先 让 我 们 回忆 一 下 ,在 第 14 章 中 我 们 已 经 说 明了 ， 对 于 % 的 一 个 给 定 值 ，y 的 期 望 值 的 点 估计 
和 y 的 一 个 个 别 值 的 点 估计 是 相同 的 。 在 两 种 情形 下， 我们 都 利用 y= bo + bx 作为 它们 的 点 估计 。 


在 多 元 回归 分 析 中 ， 我们 应 用 同样 的 步 驰 ， 即 我 们 将 自 变量 x ，x，…; 


,名 的 给 定 值 代入 估计 的 回归 方程 里 ， 


使 用 对 应 的 y 的 值 作为 y 的 期 望 值 和 y 的 一 个 个 别 值 的 点 估计 。 假 定 在 Butler 运输 公司 的 例子 里 ， 我 们 希望 利用 含 
有 xi (每 天 运送 货物 的 行驶 里 程 ) 和 x，( 运 送 货物 的 次 数 ) 两 个 自 变 量 的 估计 的 回归 方程 去 建立 两 个 区 间 估 计 : 
1， 对 于 所 有 的 运 货 汽车 ， 在 运送 货物 行驶 100 英里 和 运送 货物 2 次 的 情形 下 ， 这 些 汽车 平均 行驶 时 间 的 置信 区 间 。 
2. 对 于 一 辆 特定 的 运 货 汽车 ， 在 运送 货物 行驶 100 英里 和 运送 货物 2 次 的 情形 下 ， 该 辆 汽车 行驶 时 间 的 预测 区 间 。 
利用 估计 的 回归 方程 了 = -0. 869 +0. 061 1x, +0.932x ， 当 x =100 和 %, =2 时 ， 我 们 得 到 下 面 7 的 值 。 
F = 05869 + 0.061 1 x 100 +0.932 x2 = 7.09 


370 商务 与 经 济 统计 


因 些 ;在 两 种 情形 下 ; 汽车 行驶 时 间 的 点 估计 值 大 约 等 于 7 个 小 时 。 

应 用 了 与 包含 一 个 自 变量 的 回归 分 析 相 类 似 的 步骤 。 所 需 公式 置信 区 间 和 预测 区 间 

的 推导 已 经 超出 了 本 教科 韦 的 范围 y 但 是 对 于 多 元 回忆 分 析 倩 ,一 一 区 加 
形 , 一 旦 自 变 量 x;，x,，…，%, 的 植被 用 户 宙 定 ， 计 算 机 软件 。 ”的 数 值 5 的 雪 信 一 二。 此 碌 。 下 酮 上 民 
包 往 往 就 能 提供 这 些 区 间 估 计 。 在 Butler 运输 公司 的 例子 中 ， 50 
对 于 我 们 所 选取 的 *1 和 x%; 的 数值 ， 表 15-4 给 出 了 置信 水 平 为 50 
95% 的 置信 区 间 和 预测 区 间 的 上 、 下 限 的 数值 ; 这 些 数值 都 可 50 
以 通过 使 用 Minitab 得 到 。 需 要 注意 的 是 ,y 的 一 个 个 别 值 的 区 190 
间 估 计 要 比 y 的 期 望 值 的 区 间 估 计 有 更 宽 的 范围 。 这 一 区 别 只 
不 过 反映 了 这 样 一 个 事实 : 对 于 给 定 的 x, 和 zx, 的 数值 , 我们 舍 "一 一 
计 所 有 运 货 汽车 的 平均 行驶 时 间 比 我 们 预测 一 辆 特定 运 货 汽车 的 行驶 时 间 要 有 更 高 的 精确 度 。 


3. 146 -4.924 - 2.414 5.656 
4.127 53.2789 ,3368 ,6.548 
4.815 6,948 本 157 7.607 
6.258 7.926 5.500 8,683 
T3885 W645 &H 9 510 
S125 ma "F022 L035 


| 





六 28. 参阅 在 第 2 题 中 给 出 的 数据 。 利 用 这 些 数据 我 们 建 30. 在 第 9 题 中 ， 我 们 已 经 建立 了 一 条 小 船 的 最 高 时 速 关 


立 的 估计 的 回归 方程 是 于 该 船 的 最 大 宽度 和 发 动机 蕊 力 的 估计 的 回归 方程 。 
7 =— 18.4+2.01x, +4.74x, a， 对 于 宽度 为 85 英寸 和 发 动机 马力 为 330 的 小 船 ， 建 
a 当 xi=45, =15 时 ,建立 一 个 y 的 平均 值 的 立 一 个 平均 最 高 时 加 的 置信 水 平 为 %% 的 置信 区 间 。 
”置信 水 平 为 95% 的 置信 区 间 。 b. Svfara SV609 的 最 大 宽度 是 85 英寸 ， 发 动机 的 蕊 
b. 当 % =45,， wx, =15 时 ， 建立 一 个 y 的 一 个 个 别 力 是 330。 建 立 一 个 Syfara SV609 最 高 时 速 的 置 


值 的 置信 水 平 为 9$% 的 预测 区 间 。 信 水 平 为 95 和 的 预测 区 间 。 


15.7 分 类 自 变量 


到 目前 为 止 , 我 们 所 考虑 的 例子 的 自 变量 都 是 定量 自 变 量 ， 例 如 学 生 人 数 、 运 送 货物 行驶 的 距离 、 运 送 货 物 的 次 数 
等 。 但 是 ,在 许多 情形 中 ， 我 们 必须 利用 分 类 自 变量 ( categorical independent variables) 处 理 问题 ， 例 如 性 别 “( 男 、 女 )， 
付款 方式 现金、 信用卡 、 支 票 )， 等 等 。 我们 这 一 节 的 目的 是 说 明 ， 如 何在 回归 分 析 中 应 用 分 类 变量 。 为 了 应 用 和 解 
释 分 类 自 变 量 ， 我 们 将 考虑 约翰 逊 过 滤 股 份 公司 (Johnson Filtration，Ine) 的 管理 人 员 所 面临 的 一 个 问题 .5 


15.7. 1 一 个 例子 : 约翰 运 过 滤 股 份 公司 


约翰 逊 过 滤 股 份 公司 对 思 布 南 佛罗里达 州 的 水 过 滤 系 统 提 供 维修 保养 服务 。 当 顾客 的 水 过 滤 系 统 出 现 故障 
时 ， 他 们 就 要 与 约翰 逊 公司 进 行 联系 ， 请 求 公 司 对 他 们 的 水 过 滤 系 统 进行 维修 。 为 了 估计 服 务 时 间 和 服务 成 本 ， 
约翰 逊 公司 的 管理 人 员 和 希望 对 顾客 的 每 一 次 维修 请 求 ， 预 测 必 要 的 维修 时 间 。 所 久 ， 按 小 时 计算 的 维修 时 间 是 应 
变量 。 管 理 人 员 认 为 ， 维 修 时 间 依 赖 两 个 因素 : 从 最 近 一 次 维修 服务 至 今 水 过 滤 系 统 已 经 使 用 的 时 间 (单位 : 
月 ) 和 需要 维修 的 故障 类 型 (机 械 的 或 电子 的 ) 。 由 10 次 维修 服务 组 成 一 个 样本 ;有关 资料 数据 如 表 15-5 所 示 。 

我 们 用 y 表示 按 小 时 计算 的 维修 时 间 ，x, 表示 从 最 近 一 次 维修 服务 至 今 的 时 间 ， 仅 仅 利用 x, 进行 预测 的 回归 模型 是 

y=pB +Bx +e 
我 们 利用 Minitab 建立 了 估计 的 回归 方程 ， 得 到 的 输出 如 图 15-7 所 示 。“ 估 计 的 回归 方程 是 


后 ” 自 变 量 可 以 是 分 类 变量 ， 也 可 以 是 定量 变量 。 
电 在 Minitab 输出 中 ， 如 果 将 变量 名 “Months” 和 “Time” 作 为 列 标 题 输 人 到 工作 表 的 单元 格 中 ， 那 么 就 有 xi = Months 和 y = Time。 
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六 = 2.15 +0.304x, (15-16) 
表 15-5 ”约翰逊 过 滤 公 司 例 子 的 数据 回归 方程 是 销售 额 a 
最 近 一 ; 服务 IC 一 . AMIONn 
维修 服务 请 求 a 月 ) 维修 的 故障 类 型 维修 时 间 (小 时 ) 预测 量 系数 标准 差 / 值 bp 入 
常数 2.1473 0.6050 3.55 0.008 
1 2 电子 2.9 Months 03041 0.1004 3.03 0.016 
2 6 机 械 3.0 i 
a EE a S=0.781 022 R-Sq=53.4% R-Sq(adj)=47.6% 
4 3 机 械 1.8 方差 分 析 
: eT i i ee se 本 0.016 
6 7 电子 4.9 8 48800 06I00 
7 9 机 械 4 总 计 9 10.476 0 
8 机 械 权 图 15-7 ”在 约翰 逊 过 滤 公 司 的 例子 中 用 最 近 
9 电子 人 一 次 维修 服务 至 今 的 时 间 (xz ) 作 
10 6 电子 为 自 变量 的 Minitab 输出 


在 a=0.05 的 显著 性 水 平 下 ， 对 于 ! (或 下 检验 ,产值 为 0.016， 这 就 表明 了 维修 时 间 显 著 地 依赖 于 从 最 近 一 次 维 
修 服 务 至 今 使 用 的 时 间 。R -Sq =53.4% 表 明了 x 仅仅 解释 了 维修 时 间 变 异性 的 53. 4% 。 
为 了 将 故障 的 维修 类 型 引入 回归 模型 ， 我 们 定义 下 面 的 变量 。 
了 
1 ,如 果 故 障 的 维修 类 型 是 电子 的 
在 回归 分 析 中 ，x; 被 称 为 虚拟 变量 ( dummy variable) 或 指标 变量 。 利 用 这 个 虚拟 变量 ， 我 们 能 把 多 元 回归 模 
型 写成 如 下 形式 
y= Bo +Bx +PBx,+e 
表 15-6 是 经 过 修订 后 包含 了 虚拟 变量 数值 的 数据 集 。 利 用 Minitab 和 表 15-6 的 数据 ， 我 们 能 求 出 模型 参数 的 
估计 值 。 图 15-8 所 示 的 Minitab 输出 ”表明 了 估计 的 多 元 回归 方程 是 
人 = 0.93 +0.388x, + 1.26x, (15-17) 


表 15-6 ”用 虚拟 变量 表示 维修 故障 类 型 (% =0 表示 机 械 的 ， i 
六 =1 表示 电子 的 ) 的 约翰 逊 过 滤 公司 例子 的 数据 Time=0.930+0.388 Months+1.26 Type 
















维修 服务 ”最近 一 次 维修 服务 ”维修 的 故障 i 【nn 预测 量 ”系数 。” 标准 差 惟 bp- 值 
请 求 至 今 的 时 间 (为 ) ”类 型 (%) 04593051 046710 199 .0.087 
一 Months 0.38762 0.06257 6.20 0.000 
1 2 1 2.9 Type 1.2627 03141 402 0.005 
。 | es S=0.459 048 R-Sq=85.9% R-Sq({adj)=81.9% 
4 3 0 1.8 方差 分 析 
5 2 ] 2.9 来 源 自由 度 平方 和 均 方 
. 3 i 回归 2 9.0009 4.5005 21.36 0.001 
误差 7 1.475 1 0.2107 
7 9 0 4.2 9 10.4760 
8 : 图 15-8 ”在 约翰 偿 过 滤 公 司 的 例子 中 用 最 近 一 次 
9 4 l 4 维修 服务 至 今 的 时 间 (x, ) 和 维修 类 型 
10 6 1 4.5 (x: ) 作为 自 变量 的 Minitab 输出 


在 a=0.05 的 显著 性 水 平 下 , 与 检验 (F =21.36) 相 联 系 的 p- 值 为 0.001， 这 就 表明 回归 关系 是 显著 的 。 
在 图 15-8 中 ， 打 印 输出 的 上 检验 部 分 表明 ， 从 最 近 一 次 维修 服务 至 今 的 时 间 (产值 =0.000) 和 维修 的 类 型 
(P- 值 =0.005) 这 两 个 自 变 量 在 统计 上 都 是 显著 的 。 另 外 ，R =85. 9% 和 修正 R =81.9 儿 表明 估计 的 回归 方程 很 


日 在 Minitab 输出 中 ， 如 果 将 变量 名 “Months”“Type” 和 “Time” 作 为 列 标题 输入 到 工作 表 的 单元 格 中 ， 那 么 就 有 x = Months、x = 
Type 和 Y= Time。 
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好 地 解释 了 维修 时 间 的 变异 性 。 于 是 ， 对 于 各 种 不 同类 型 的 维修 服务 请 求 ， 在 估计 必要 的 维修 时 间 时 ， 人 和 估计 的 回 
归 方 程 (15-17) 应 是 有 帮助 的 。 


15. 7.2 解释 参数 


对 于 约翰 逊 过 滤 公 司 的 例子 ， 多 元 回归 方程 是 
E(y) = PB tA + (15-18) 
当 模 型 中 存在 一 个 分 类 变量 时 ， 为 了 漠 清 楚 如 何 对 参数 6,，pB, 和 BB, 作出 合理 的 解释 ， 我们 考虑 x, =0 (机 械 类 型 
的 故障 ) 的 情形 。 在 已 知 故障 类 型 是 机 械 型 时 ， 用 E(y | 机 械 ) 表示 故障 维修 时 间 的 平均 值 或 期 望 值 ， 我 们 有 


E(y | 机 械 ) = B + Bax + 有 x0 = Bo + Bn (15-19) 
类 似 地 ， 对 于 电子 类 型 的 故障 (x; =1) ,我 们 有 
E(y| 电 子 ) = But Bx +B x1 = Bo tpBix: + 局 = (Bi +B,) + Bs (15-20) 


比较 式 (15-19) 和 (45:20) ， 我 们 看 到 : 无 论 是 机 械 类 型 的 故障 还 是 电子 类 型 的 故障 ， 平 均 维修 时 间 都 是 
x; 的 线性 函数 。 这 两 个 方程 的 斜率 都 是 B, ， 但 是 y 轴 截 距 不 同 。 对 于 机 械 类 型 的 故障 ， 在 式 (15-19) 中 的 了 轴 截 
距 是 B,。; 对 于 电子 类 型 的 故障 ， 在 式 (15-20) 中 的 y 轴 截 距 是 (B, +B,) 。B, 的 解释 是 : 它 表示 电子 类 型 故障 的 
平均 维修 时 间 与 机 械 类 型 故障 的 平均 维修 时 间 之 间 的 差 。 
如 果 忆 是 正 的 ， 那 么 电子 类 型 故障 的 平均 维修 时 间 将 大 于 机 械 类 型 故障 的 平均 维修 时 间 ; 如 果 忆 是 负 的 ， 那 
么 电子 类 型 故障 的 平均 维修 时 间 将 小 于 机 械 类 型 故障 的 平均 维修 时 间 。 最 后 ， 如 果 B, =0， 那 么 电子 类 型 故障 与 
机 械 类 型 故障 的 平均 维修 时 间 之 间 没 有 差别 ， 维 修 时 间 不 依赖 于 水 过 滤 系统 的 故障 类 型 。 
利用 估计 的 多 元 回归 方程 ?= 0. 93 +0. 388x, + 1. 26x, ， 我 们 看 到 : 0. 93 是 Bu 的 估计 值 ，1. 26 是 B, 的 估计 值 。 
于 是 ， 当 x, =0〈 机 械 类 型 的 故障 ) 时 ， 有 
Y = 0. 93 + 0. 388x， (15-21) 
当 x, =1 (电子 类 型 的 故障 ) 时 ， 有 
y= 0.93+0. 388x + 1,26 x 1 = 2.19 +0.388x, (15-22) 
实际 上 ， 对 维修 的 故障 类 型 引入 虚拟 变量 为 我 们 提供 了 能 用 于 
预测 维修 时 间 的 两 个 估计 的 回归 方程 ， 一 个 方程 对 应 机 械 类 型 
故障 的 维修 时 间 ， 一 个 方程 对 应 电子 类 型 故障 的 维修 时 间 。 另 
外 ， 因 为 5, =1.26， 我 们 得 知 : 电子 类 型 故障 的 维修 时 间 要 比 
机 械 类 型 故障 的 维修 时 间 平 均 多 用 了 1. 26 个 小 时 。 
图 15-9 是 根据 表 15-6 的 约翰 逊 过 滤 公 司 的 数据 画 出 的 散 点 
图 。 用 纵 轴 表 示 按 小 时 计算 的 维修 时 间 (y) 、 用 水 平 轴 表 示 从 
最 近 一 次 维修 服务 至 今 的 月 数 〈x, ) 。 机 械 类 型 故障 的 维修 时 间 
的 数据 点 用 M 表示 ， 电 子 类 型 故障 的 维修 时 间 的 数据 点 用 EE 表 


维修 时 间 〈 小 时 ) 





示 。 在 散 点 图 上 画 出 了 式 《15-21) 和 式 (15-22) 的 图 形 ， 这 就 0 1 Ti 靖 
从 几何 上 表明 了 这 两 个 方程 能 用 于 预测 维修 时 间 ， 一 个 对 应 机 人 
械 类 型 故障 的 维修 时 间 ， 一 个 对 应 电子 类 型 故障 的 维修 时 间 。 ee A A 司 的 维修 数 


15. 7. 3 “更 复杂 的 分 类 变量 

因为 对 于 约翰 逊 过 滤 公 司 的 例子 ， 分 类 变量 只 有 两 个 水 平 (机械 的 和 电子 的 ) ， 我 们 只 需要 很 容易 地 定义 一 个 虚 
拟 变量 就 可 以 了 ， 用 0 表示 需要 维修 的 故障 类 型 是 机 械 型 的 ， 用 1 表示 需要 维修 的 故障 类 型 是 电子 型 的 。 但 是 ， 当 一 
个 分 类 变量 超过 两 个 水 平时 ， 我 们 必须 在 定义 虚拟 变量 和 解释 虚拟 变量 两 方面 谨慎 从 事 。 正 如 我 们 将 要 说 明 的 那样 ， 
如 果 一 个 分 类 变量 有 上 个 水 平 ， 那 么 需要 定义 上 -1 个 虚拟 变量 ， 每 一 个 虚拟 变量 或 者 取 值 为 0， 或 者 取 值 为 1。” 


牟 ” 如 果 一 个 分 类 变量 有 上 个 水 平 ， 我 们 必须 用 -1 个 虚拟 变量 来 模拟 这 个 分 类 变量 。 在 定义 和 解释 这 些 虚 拟 变量 方面 我们 必须 遵 愤 行 事 。 
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例如 ,假定 复印 机 制造 商 组 织 策划 的 销售 区 域 是 菜 一 个 特定 州 的 A、B 和 三 个 地 区 。 管理 人 员 希 望 ， 利 用 
回归 分 析 方 法 帮助 他 们 去 预测 每 周 复印 机 的 销售 数量 。 用 复印 机 的 销售 数量 作 应 变量 ， 并 且 考 虑 几 个 自 变量 ( 销 
售 人 员 的 数量 ， 广 告 费 用 支出 ,等 等 )。 我 们 还 假定 : 管理 人 员 相 信 ， 销售 地 区 也 是 预测 复印 机 销售 数量 的 一 个 
重要 因素 。 因 为 ， 销 售 地 区 是 一 个 分 类 变量 ,， 它 有 A、B 和 三 个 水 平 ， 所 以 我 们 将 需要 3 -1 =2 个 虚拟 变量 来 
表示 销售 地 区 。 每 一 个 虚拟 变量 被 定义 为 如 下 形式 。 

ent 并 去 和 
0, 其 他 0, 其 他 

根据 这 个 定义 ,我 们 有 4 和 己 的 值 如 下 。 

rr 
A 


B 
C 


SS = SIx 
Ol 


对 应 于 销售 地 区 A 的 观测 值 ， 虚 拟 变量 被 定义 为 x, =0，x, =0; 对 应 于 销售 地 区 B 的 观测 值 ， 虚 拟 变量 被 定 
义 为 xi =1，x;=0; 对 应 于 销售 地 区 C 的 观测 值 ， 虚 拟 变量 被 定义 为 x =0，%, =1。 
复印 机 销售 数量 的 期 望 值 5(y) 关于 虚拟 变量 的 回归 方程 将 被 写 为 
E(y) = Bo + Bx + Bx 
为 了 帮助 我 们 理解 参数 B,，B,， 和 BB 的 意义 ， 我们 考虑 回归 方程 的 三 种 变化 。 
E(Y | 销售 地 区 A) = B +B x0+B, x0 = Bp, 
E(xy | 销售 地 区 B)=B, +B, x11+B,x0 =B, +B 
E(y| 销售 地 区 C) = Bo+B, Xx0+pB;x1 =pBo+B, 
于 是 , Bo 是 地 区 A 销售 数量 的 平均 值 或 期 望 值 ，B, 是 地 区 B 销售 数量 的 平均 值 和 地 区 A 销售 数量 的 平均 值 之 
间 的 差 ，B, 是 地 区 C 销售 数量 的 平均 值 和 地 区 A 销售 数量 的 平均 值 之 间 的 差 。 
因为 分 类 变量 有 3 个 水 平 ， 所 以 需要 2 个 虚拟 变量 , 但是， 指定 x =0，2 =0 表示 销售 地 区 A; 指定 wx, =1， 
x =0 表示 销售 地 区 B; 指定 x, =0，x, =1 表示 销售 地 区 C 却 是 任意 的 。 例 如 ， 我 们 也 能 用 x, = 1，x, =0 表示 销 
售 地 区 A; 用 % =0，x, =0 表示 销售 地 区 B; 用 x =0，x, =1 表示 销售 地 区 C。 在 这 种 情形 中 ，B, 能 被 解释 为 是 
地 区 A 销售 数量 的 平均 值 和 地 区 B 销售 数量 的 平均 值 之 间 的 差 ， B; 能 被 解释 为 是 地 区 C 销售 数量 的 平均 值 和 地 区 
B 销售 数量 的 平均 值 之 则 的 差 。 
重点 是 要 牢记 : 在 多 元 回归 分 析 中 ， 如 果 一 个 分 类 变量 有 此 个 水 平 ， 那 么 需要 在 多 元 回归 分 析 中 定义 k=1 个 
虚拟 变量 。 于 是 ， 如 果 在 销售 地 区 的 例子 中 还 有 第 4 个 地 区 ， 我们 不 妨 用 D 表示， 那么 有 必要 定义 3 个 虚拟 变 
量 。 例 如 ，3 个 虚拟 变量 可 以 被 定义 为 如 下 形式 。 
so de i Pr 
0, 其 他 0, 其 他 


0, 其 他 


2 二 一 





方法 应 用 

衣 32. 考虑 一 个 回归 方程 ， 它 包含 一 个 应 变量 yY， 一 个 定 ” 女 34. 管理 部 门 提 出 下 面 的 回归 方程 用 于 预测 一 家 快餐 
量 自 变量 xi 和 一 个 具有 两 个 水 平 (水 平 1 和 水 平 店 的 销售 收入 。 
2) 的 分 类 自 变 量 。 y=pBo +Bix +Bx +Bx +e 
a. 写 出 应 变量 y 关 于 自 变量 xi 和 分 类 变量 的 多 元 式 中 ， xi 代表 在 1 英里 范围 内 竞争 者 的 个 数 ; x, 代 

回归 方程 。 表 在 1 莱 里 范围 内 的 居民 人 数 (1 000 人 ); 

b. 对 应 于 分 类 变量 水 平 1，y 的 期 望 值 是 多 少 ? Re i 
c， 对 应 于 分 类 变量 水 平 2，7y 的 期 望 值 是 多 少 ? 0, 和 否则 


d. 对 你 的 回归 方程 中 的 参数 作出 解释 。 yy 代表 销售 收入 (1000 美元 )， 


306. 
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在 调查 了 20 家 快餐 店 之 后 ， 建 立 了 下 面 的 估计 的 

回归 方程 。 

F310.1 -4.2x, +6.8x, +15.3x, 

a 由 于 为 驾车 者 设置 了 不 必 下 车 就 可 以 购买 快餐 
食品 的 窗口 而 带 来 的 期 望 销售 收入 是 多 少 ? 

b. 车 有 一 家 快餐 店 ， 在 1 英里 范围 内 有 2 个 竞争 
者 、8 000 名 居民 并 且 没 有 为 驾车 者 设置 不 必 下 
车 就 可 以 购买 快餐 食品 的 窗口 ， 预 测 这 家 快餐 
店 的 销售 收入 。 

c. 若 有 一 家 快餐 店 ， 在 1 英里 范围 内 有 1 个 竞争 
者 、3 000 名 居民 并 且 为 驾车 者 设置 了 不 必 下 车 
就 可 以 购买 快餐 食品 的 窗口 ， 预测 这 家 快餐 店 
的 销售 收入 。 

这 个 问题 是 第 35 题 中 所 叙述 情形 的 扩展 。 

a 建立 估计 的 回归 方程 ， 使 得 该 方程 在 从 最 近 一 
次 维修 服务 至 今 的 时 间 ， 维 修 的 故障 类 型 以 及 
由 哪 一 位 维修 工 完成 维修 服务 已 知 的 条 件 下 ， 
能 用 来 预测 维修 时 间 。 

. 在 a=0.05 的 显著 性 水 平 下 ， 对 在 (a) 中 所 建 
立 的 估计 的 回归 方程 ， 检验 在 自 变 量 和 应 变量 
之 间 是 否 存 在 一 个 显著 的 关系 。 

c. 增加 维修 服务 是 由 哪 一 位 维修 工 完成 的 自 变量 
x3， 这 个 自 变量 在 统计 上 显著 吗 ? 检验 的 显著 
性 水 平 为 a=0.05。 对 于 得 到 的 结果 ， 你 能 作出 
什么 解释 ? 


一 局 


15. 8 残 差分 析 


在 第 14 章 中 我 们 曾经 指出 ， 在 作 残 差 图 和 识别 异常 值 时 ， 经 常 要 用 到 标准 化 残 差 。 对 于 第 ;次 观测 ， 标 准 化 
残 差 的 一 般 公式 如 下 。 


38. 美国 心脏 协会 经 过 10 年 的 研究 ， 得 到 了 有 关中 风 
风险 与 年 龄 、 血 压 和 吸烟 嗜好 相关 性 的 统计 资料 。 
假设 这 一 研究 的 部 分 数据 如 下 表 所 示 。 我 们 将 病 
人 在 今后 十 年 内 发 生 中 风 的 概率 ( 乘 上 100) 视 为 
中 风 的 风险 。 我 们 用 一 个 虚拟 变量 来 定义 病人 是 
否 为 吸烟 者 ，1 表示 是 吸烟 者 ,0 表示 是 非 吸烟 者 。 





号 页 太 册 向 节 知 基 呈现 
酒 到 部 三 各 二 并 各部 到 | 


a， 建立 一 个 中 风 风 险 关于 人 的 年 龄 、 血 压 和 是 否 
为 吸烟 者 的 估计 欧 回 归 方 程 。 

b. 在 中 风 风 险 的 估计 的 回归 方程 中 ， 吸 烟 是 一 个 
显著 的 影响 因素 吗 9 检验 的 显著 性 水 平 为 a = 
0.05。 对 于 得 到 的 结果 ， 请 作出 解释 。 

c，Art Speen 是 一 位 血压 为 175 的 68 岁 的 吸烟 者 ， 
他 在 今后 十 年 内 发 生 中 风 的 概率 是 多 少 ? 对 于 
这 位 病人 ， 医 生 可 以 提出 什么 建议 ? 








正如 我 们 在 第 14 章 中 已 经 陈述 的 那样 ， 


第 i 次 观测 的 残 差 的 标准 差 的 一 般 公式 定义 如 下 。 








rrp 
Ww gh lL 


一 次 观测 的 杠杆 率 (leverage) 是 由 自 变量 的 观测 值 与 这 些 观 测 值 的 
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平均 值 之 间 的 距离 有 多 远 确定 的 。 在 多 元 回归 情形 中 ， 对 于 第 i 次 观测 ， 计 算 h、s, -9 和 标准 化 残 差 ， 如 采用 手 
算是 非常 复杂 的 。 但是， 如 果 利 用 统计 软件 包 ， 标 准 化 残 差 可 以 很 容易 地 从 它 的 输出 里 得 到 。 对 于 本 章 前 面 介绍 
的 Butler 运输 公司 的 例子 ， 表 15-7 列 出 了 预测 值 、 残 差 和 标准 化 残 差 ， 我们 通过 利用 Minitab 统计 软件 包 得 到 了 
这 些 数值 。 表 中 的 预测 值 是 根据 估计 的 回归 方程 = -0. 869 +0.0611x, +0.923x; 计 算出 来 的 。 


表 15-7 Butler 运输 公司 回归 分 析 的 残 差 和 标准 化 残 差 


行驶 距离 (x ) 送 货 次 数 (xX。】 行驶 时 间 (yy) 预测 值 (9) 残 差 【y 一 月 标准 化 残 差 
100 4 9.3 8. 938 46 0. 361 541 0. 783 44 
50 3 4.8 4. 958 30 -0. 158 304 -0. 349 62 
100 4 8.9 8. 938 46 -0.038 460 -0.083 34 
100 2 6.5 7. 091 61 -0.591 609 -1. 309 29 
50 2 4.2 4. 034 88 0. 165 121 0. 381 67 
80 2 6.2 5. 868 92 0. 331 083 0. 654 31 
75 a 7.4 6. 486 67 0. 913 331 1. 689 17 
65 二 6.0 6.798 75 -0.798749 -1.773 72 
90 3 7.6 7. 403 69 0. 196 311 0. 367 03 
90 2 6. 1 6. 480 26 -0.380 263 -0.77639 


15-10 是 Butler 运输 公司 多 元 回归 例子 的 标准 化 残 差 图 ,在 42 

图 中 所 使 用 的 标准 化 残 差 和 y 的 预测 值 ?， 都 可 以 从 表 15-7 中 得 到 。 
这 个 标准 化 残 差 图 并 没有 表示 出 任何 与 众 不 同 的 反常 情形 。 同时， “* 
所 有 的 标准 化 残 差 都 介 于 -2 和 +2 之 间 。 因 此 ,我 们 没有 理由 怀 
疑 误差 项 = 是 正 态 分 布 的 假定 。 最 后 ， 我 们 的 结论 是 : 模型 的 假定 
都 是 合适 的 。 

正 态 概率 图 也 能 用 来 确定 误差 项 & 的 分 布 是 否 服 从 正 态 分布 的 。 ， 
假定 。 正 态 概率 图 的 作 图 步骤 和 解释 已 经 在 第 14.8 节 中 讨论 过 。 一 一 一 一 一 
对 于 多 元 回归 分 析 ， 同 样 的 步 又 也 是 适用 的 。 而 且 ， 我 们 仍然 利用 图 15.10 Butler 运输 公司 的 标准 化 残 美 图 
一 个 统计 软件 包 来 完成 计算 任务 并 绘制 出 正 态 概率 图 。 


15. 8. 1 检测 异常 值 

和 其 他 数据 相 比 较 ， 异 常 值 (outlier) 是 一 个 与 众 不 同 的 观测 值 ; 换 句 话说， 异常 值 与 由 其 他 观测 值 作出 的 
散 点 图 所 显示 的 趋势 不 相 吻 合 。 在 第 14 章 中 ， 我 们 已 经 给 出 了 一 个 异常 值 的 例子 ,并 且 讨 论 了 如 何 利用 标准 化 
残 差 去 检测 异常 值 。 如 果 一 个 观测 值 的 标准 化 残 差 的 数值 小 于 -2 或 者 大 于 +2，Minitab 能 将 这 个 观测 值 识 别 为 
是 一 个 异常 值 。 对 Butler 运输 公司 例子 的 标准 化 残 差 ( 见 表 15-7)， 应 用 这 一 规则 ， 我 们 没有 从 数据 集中 检测 出 
任何 异常 值 。 

一 般 来 说 ， 如 果 在 数据 集中 存在 一 个 或 一 个 以 上 的 异常 值 ， 将 导致 估计 的 标准 误差 :的 增加 ， 从 而 使 得 第 i 
次 观测 的 残 差 的 标准 差 s, .的 增加 。 因 为 在 标准 化 残 差 公式 (15-23) 中 的 分 母 是 s，; ， 所 以 标准 化 残 差 的 数值 
将 随 着 ; 值 的 增加 而 减少 。 最 后 导致 的 结果 是 ， 虽 然 一 个 残 差 可 能 超 乎 寻常 得 大 ， 但 由 于 在 式 (15-23) 中 有 一 个 
大 的 分 母 ， 从 而 可 能 使 识别 一 个 观测 值 为 异常 值 的 标准 化 残 差 规则 失效 。 我 们 利用 一 种 称 为 学 生化 删除 残 差 
( studentized deleted residual) 的 标准 化 残 差 ， 就 能 防止 这 种 情形 发 生 。 


15. 8. 2 学 生化 删除 残 差 和 异常 值 
假设 从 数据 集中 删除 第 ;次 观测 值 ， 利 用 其 余 的 = - 1 次 观测 值 建立 一 个 新 的 估计 的 回归 方程 。 设 sy 表示 从 
数据 集中 删除 了 第 i 次 观测 值 后 得 到 的 估计 的 标准 误差 。 如 果 我 们 计算 第 i 次 观测 的 残 差 的 标准 差 ， 用 so 代替 
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式 《15-24) 中 的 s， 那 么 在 我 们 计算 第 次 观测 的 标准 化 残 差 时 ， 式 (15-23) 利用 了 5 - 守 的 修正 值 ， 这 样 得 到 的 
标准 化 残 差 称 为 学 生化 删除 残 差 。 如 果 第 i 次 观测 值 是 一 个 异常 值 ， 那 么 3) 将 小 于 s, 所 以 ,第 i 次 观测 的 学 生化 
删除 残 差 的 绝对 值 将 大 于 标准 化 残 差 的 绝对 值 。 在 这 种 意义 下 ， 学 生化 删除 残 差 可 以 检测 出 标准 化 残 差 不 能 检测 
出 的 异常 值 。 

为 了 得 到 学 生化 删除 残 差 ， 许 多 统计 软件 包 提供 了 可 选项 。 对 于 Butler 运输 公司 例子 ， 我 们 利用 Minitab 可 以 
得 到 学 生化 删除 残 差 ， 结果 列 在 表 15-8 中 。 我 们 能 利用 1 表 15-8 ”Butler 运输 公司 的 学 生化 删除 残 差 
分 布 来 确定 ， 学 生化 删除 残 差 是 否 表明 存在 异常 值 。 回 想 


行驶 距离 。 送 货 次 数 。 行驶 时 间 。 , 准 化 残 差 学 生化 
一 下 ,我 们 用 p 表示 自 变量 的 个 数 ， 用 表示 观测 值 的 个 (x) (总 ) (yY) 删除 残 差 
数 。 如 果 我 们 从 数据 集中 删除 第 次 观测 值 ， 那 么 数据 集 100 4 9.3 0.78344 0.75939 
中 余下 的 观测 值 还 有 n -1 个; 在 这 种 情形 下 ， 误 差 平方 50 3 48 -0.34962 =0.32654 
和 的 自由 度 是 (n -1) -pp 一 1。 对 于 Butler 运输 公司 例子 ， 100 +1 8.9 -0.08334 -0.07720 
n=10, p=2, 删除 第 i 次 观测 值 后 ， 自由 度 是 9 一 2-1 = 100 2 6.5 -1.30929 二 1.39494 
6。 在 0.05 显著 性 水 平 下 ， 有 6 个 自由 度 的 :分布 的 双 侧 。 ~ 1 
分 位 数 faws =2. 447 ( 见 附录 也 表 B2)。 如 果 第 ;次 观测 Ti 
的 学 生化 删除 残 差 的 数值 小 于 -2 447 或 者 大 于 +2.447， 65 4 6.0 -1.77372 “2.213 14 
我 们 就 能 断定 ; 第 庆 次 观测 值 是 二 不 看 带 值 。 因 为 在 表 i 
15-8 中 ， 学 生化 删除 残 差 都 没有 超过 这 个 界限 ， 所 以 我 们 90 2 6.1 20.77639 -0.75190 


断定 : 在 这 个 数据 集 里 ， 不 存在 异常 值 。 
15. 8. 3 ”有 影响 的 观测 值 


在 回归 分 析 中 ， 有 时 自 变 量 的 观测 值 可 能 对 回归 结果 有 一 个 较 强 的 影响 ， 在 第 14.9 节 中 ; 我 们 讨论 了 如 何 利 


用 观测 值 的 杠杆 率 将 这 种 有 较 强 影响 的 观测 值 识 别 出 来 
的 方法 。 正 如 我 们 在 标准 化 残 差 的 讨论 中 指出 的 那样 ， 


表 15-9 Butler 运输 公司 的 杠杆 率 和 库 克 距 离 测度 


行驶 距离 。 ” 送 货 次 数 ”行驶 时 间 ”杠杆 率 。 ” 库 克 距离 

一 个 观测 值 的 杠杆 率 后 是 自 变量 的 观测 值 和 这 些 观 测 值 (x ) (»%) (y) (hi;) ” ”测度 (D)) 
的 平均 值 之 间距 离 远近 的 度量 。 作 为 统计 软件 包 输 出 的 100 1 9.3 0; 351704 0.110 994 
一 部 分 ， 杠 杆 率 的 数值 很 容易 就 能 得 到 。 Minitab 不 但 能 50 3 4 沁 VRE O24 S36 
够 计算 出 杠杆 率 的 数值 ， 而 且 还 能 够 利用 经 验 法 则 : i 9 “a i 
h,>3(p +1)/n 识别 出 有 影响 的 观测 值 (influential ob- eh 
servations)e. 对 于 Butler 运输 公司 的 例子 ,日 变量 的 个 数 80 2 6 6 0 7 0 040 381 
是 p=2， 观 测 值 的 个 数 是 n=10， 杠 杆 率 的 临界 值 是 3 x 3 4.4 0.110009 ”0.117 562 
(2+1)A0=0.9。 利用 Minitab， 我 们 得 到 的 Butler 运输 65 4 6.0 0. 382 657 ”0.650029 
公司 例子 的 杠杆 率 数值 如 表 15-9 所 示 。 因 为 h, 都 不 超 90 3 7.6 0. 129098 。 0.006 656 
90 2 6.1 0.269737 0:074 217 


过 0.9， 所 以 在 这 个 数据 集 里 ， 我 们 没有 检测 出 有 影响 
的 观测 值 。 


15. 8. 4 ”利用 库 克 距离 测度 识别 有 影响 的 观测 值 


利用 杠杆 率 识别 有 影响 的 观测 值 时 可 能 出 现 的 一 个 
问题 是 : 一 个 观测 值 能 被 识别 出 来 是 一 个 有 高 杠杆 率 的 
观测 值 ， 但 蚌 根 据 得 到 的 估计 的 回归 方程 ， 这 个 观测 值 






Xi 


yi 


h, 
0. 204 170 


表 15-10 利用 杠杆 率 的 临界 值 说 明 潜在 问题 的 数据 集 


yi 


0. 125 977 


h, 








21 0. 204 170 
22 0. 164 205 
0. 138 141 







1 24 
5 26 


0. 125 977 
0; 127'715 
0. 909 644 


未 必 是 一 个 有 影响 的 观测 值 。 例 如 ， 表 15- 10 是 一 个 由 
8 个 观测 值 组 成 的 数据 集 和 它们 对 应 的 杠杆 率 (可 以 利 
用 Minitab 得 到 ) 。 因 为 第 8 个 观测 值 的 杠杆 率 是 0.91 > 


[oy i 
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杠杆 率 的 临界 值 ) ， a i 让 我 们 
从 不 同 的 角 度 考 1 于 个 问题 
图 15-11 给 出 了 与 表 15-10 的 数据 集 相对 应 的 散 点 图 。 我 们 利用 Minitab 建 
上 数据 的 估计 的 回归 方程 如 下 。 
y= .18 2 1s 39x 
图 15-11 中 的 直线 就 是 这 个 方程 的 图 示 。 现 在 让 我 们 从 数据 集中 将 观测 
值 (x=15, y=39) 删除 掉 ， 对 剩余 的 7 个 观测 值 拟 合 一 个 新 的 估计 的 回归 
方程 。 这 个 新 的 估计 的 回归 方程 是 
= 185l E42w 
我 们 注意 到 ， 新 的 估计 的 回归 方程 和 利用 所 有 数据 建立 的 估计 的 回归 广 
程 ， 这 两 个 方程 的 y 轴 截 距 和 斜率 的 数值 没有 显著 的 区 别 。 尽 管 杠 杆 率 准则 
将 第 8 个 观测 值 识别 为 是 一 个 有 影响 的 观测 值 ， 但 显然 这 个 观测 值 对 我 们 的 “;。 
估计 结果 影响 很 小 。 于 是 在 某 些 情形 下 ,仅仅 利用 杠杆 率 来 识别 有 影响 的 观 
测 值 ， 可 能 导致 错误 的 结论 。 0 5 10 15 
库 克 距 离 测 度 (Cook”s distance measure) 利用 第 i 次 观测 的 杠杆 率 h， 图 雹 -11 表 15-10 中 数据 集 的 散 点 图 


ge ee | 注 ， 如 果 点 (15，39) 被 删 除 掉 ， 估 计 的 
人 和 软 观 测 的 残 差 〈y - 注 ) 来 确定 这 个 观测 值 是 否 是 一 个 有 影响 的 观 。 四) 方程 是 Pie THL 和 。 








利用 全 部 数据 
估计 的 回归 方程 
是 六 =18.241,39x 


x 





如 果 一 个 观测 值 的 残 差 和 (或) 杠杆 率 比较 大 ,那么 库 克 距离 测度 也 将 比较 大 ， 从 而 就 能 表明 这 个 观测 值 是 
一 个 有 影响 的 观测 值 。 作 为 经 验 准 则 ， 如 果 D, > 1， 那 么 就 表明 第 i 次 观测 值 是 一 个 有 影响 的 观测 值 ， 并 应 对 这 个 
观测 值 做 进一步 的 考察 。 对 于 Butler 运输 公司 的 例子 ， 表 15-9 的 最 后 一 列 是 由 Minitab 给 出 的 库 克 距离 测度 。 第 8 
个 观测 值 的 库 克 距 离 测度 D,=0.650 029， 这 个 观测 值 应 有 最 大 的 影响 。 但 是 根 据 D, > 1 的 经 验 准 则 ， 在 Butler 运 
输 公司 的 数据 集中 ， 我 们 并 不 需要 关注 有 影响 观测 值 的 存在 问题 。 


注释 和 评论 


ns 识 齐 异常 值 和 有 彩 响 的 观测 值 的 步 于 预先 向 我 们 提出 了 警告 ， 某 些 观测 值 可 能 对 回归 结果 产生 潜在 的 影 
响 。 我 们 对 每 一 个 异常 值 和 有 影响 的 观测 值 都 要 进行 仔细 检查 。 如 果 发 现 是 数据 的 误差 ， 那么 应 该 对 数据 
误差 作出 修正 ， 并 重新 进行 回归 分 析 。 一 般 地 说 ， 我 们 不 应 该 将 异常 值 和 有 影响 的 观测 值 从 数据 集中 删除 
掉 ， 除 非 有 明显 的 证 据 表 明 ， 它 们 不 是 我 们 正在 研究 的 总 体 元 素 ， 这 时 候 我 们 就 不 应 该 再 把 它们 包括 在 原 
始 数 据 集 中 。 

. 为 了 确定 库 克 距离 测度 DD, 的 值 是 否 足 够 大 ,使 得 我 们 能 得 出 第 i 次 观测 值 是 一 个 有 影响 的 观测 值 
的 结论 ， 我 们 还 能 将 D, 的 值 与 分 子 自由 度 为 p+1、 分 母 自由 度 为 n-p-1 的 下 分 布 的 第 50 个 再 
分 位 数 ( 表 示 为 so) 做 比较 。 对 应 于 显著 性 水 平 m=0,50 的 下 分 布 表 一 定 能 实现 这 一 检验 。 我 
们 给 出 的 经 验 准 则 (DD， Wan 对 于 相当 广泛 的 各 种 不 同情 形 ， 五 分 布 表 的 值 非 

(1 呈 接 3 于 1 。 


it” 


378 商务 与 经 济 统计 





40. 考虑 两 个 变量 x* 和 yy 的 数据 如 下 。 42. 下 面 是 16 款 流行 的 Sports/GT 型 车 的 自重 、 马 力 和 
Xi 22 4 和 号 加 从 开始 启动 并 加 速 至 1/4 英里 处 时 的 速度 的 数据 。 
nl 2 0 假设 每 一 款 Sports/GT 型 车 的 价格 也 能 得 到 。 全 部 
a 对 这 些 数 据 ， 建 立 估计 的 回归 方程 。 数据 集 如 下 表 所 示 。 
的 显著 性 水 平 下 ， 这 些 观测 值 中 的 哪 一 个 能 被 马力 已 知 时 ， 能 用 来 预测 从 开始 启动 并 加 速 至 
认为 是 一 个 异常 值 ? 请 作出 解释 有 
c. 对 这 些 数据 ， 计 算 杠 杆 率 。 在 这 些 数据 中 存在 b. 绘制 关于 7 的 标准 化 残 差 图 。 残 差 图 是 否 和 证实 了 
有 影响 的 观测 值 吗 ? 请 作出 解释 。 有 关 误 差 项 & 的 假定 ? 请 作出 解释 。 
d. 对 这 些 数 据 ， 计 算 库 克 距 离 测 度 。 在 这 些 数 据 co. 对 这 些 数据 ， 检 查 异 常 值 。 你 的 结论 是 什么 ? 
中 存在 有 影响 的 观测 值 吗 ? 请 作出 解释 。 d. 是 否 存 在 有 影响 的 观测 值 ? 请 作出 解释 。 
在 1/4 英里 处 时 的 速度 
高 性 能 跑 轿车 价格 (1000 美元 ) 自重 ( 磅 ) 马力 ri 
Acura JIntegra Type 及 25. 035 J 7 195 90. 7 
Acura NSX-T 93. 758 3066 290 108. 0 
BMW 23 2.8 40. 900 2 844 189 93.2 
ChevroletCamaro Z28 24. 865 3 439 305 103. 2 
Chevrolet Corvette Convertible 50. 144 3246 345 102. 1 
Dodge Viper RT/10 69. 742 3319 450 116; 2 
Ford Mustang GT 23. 200 3227 225 91, 7 
Honda Prelude Type SH 26. 382 3 042 195 89.7 
Mercedes-Benz CLK320 44. 988 3240 215 93, 0 
Mercedes-Benz SLK230 42. 762 3025 185 92.3 
Mitsubishi 3000GT VR-4 47.518 3 7 320 99. 0 
Nissan 240SX SE 25. 066 2 862 155 84.6 
Pontiac Firebird Trans Am 27,770 3455 305 103. 2 
PorscheBoxster 45. 560 2822 201 93. 2 
Tovota Supra Turbo 40. 989 3 505 320 105. 0 
Volvo C70 41. 120 3285 236 97. 0 


15.9 logistic 回归 


在 许多 回归 应 用 中 ， 应 变量 仅 能 够 被 假定 为 是 两 个 离散 值 。 例如， 为 了 预测 人 们 是 否 愿 意 使 用 某 种 信用 卡 ， 
一 家 银行 很 想 建立 一 个 估计 的 回归 方程 。 如 果 银 行 批准 使 用 某 种 信用 卡 的 申请 ， 则 应 变量 被 赋值 为 y= 1; 如 果 银 
行 拒绝 使 用 某 种 信用 卡 的 申请 ， 则 应 变量 被 赋值 为 y=0。 利 用 logistic 回归 ， 在 被 选取 出 来 的 自 变量 的 一 组 特定 值 
已 知 的 条 件 下 ,我 们 能 估计 银行 将 批准 使 用 某 种 信用 卡 申 请 的 概率 。 

现在 让 我 们 考虑 logistic 回归 的 一 个 应 用 ， 该 应 用 涉及 了 Simmons 商店 正在 使 用 的 一 种 直接 邮寄 广告 的 促销 手 
段 。Simmons 拥有 并 且 经 营 一 家 全 美国 范围 的 妇女 服饰 连锁 商店 。 这 家 连锁 店 印 制 了 5 000 份 成 本 昂贵 的 彩色 商品 
目录 ， 并 且 每 份 商品 目录 还 赠送 一 张 商家 的 优惠 券 ， 如 果 顾 客 购买 200 美元 或 200 美元 以 上 的 商品 ， 将 给 予 50 美 
元 的 折扣 。 因 为 商品 目录 的 成 本 昂贵 ， 所 以 Simmons 只 愿意 将 商品 目录 寄 送 给 那些 最 有 可 能 使 用 优惠 券 并 购买 
200 美元 或 200 美元 以 上 商品 的 顾客 。 

管理 人 员 认 为 ， 在 预测 收 到 商品 目录 的 顾客 是 否 将 使 用 优惠 券 并 购买 200 美元 或 200 美元 以 上 的 商品 时 ， 两 个 可 
能 会 有 所 帮助 的 变量 是 在 Simmons 商店 的 年 消费 支出 和 顾客 是 否 拥有 Simmons 和 信用卡。Simmons 进行 了 一 项 试验 性 的 
研究 ， 随 机 样本 由 50 名 拥有 Simmons 信用 卡 的 顾客 和 50 名 没有 Simmons 信用 卡 的 其 他 顾客 组 成 。 对 被 随机 抽取 出 来 
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的 100 名 顾客 ，Simmons 把 商品 目录 送 给 他 们 中 的 每 一 名 顾客 。 在 一 个 试验 周期 结束 时 ，Simmons 记录 下 顾客 是 否 使 
用 了 优惠 券 。 前 10 名 商品 目录 接受 者 的 样本 数据 如 表 15-11 所 示 。 每 一 名 顾客 去 年 在 Simmons 商店 的 年 消费 支出 以 
1 000 美 元 为 单位 ; 信用 卡 的 信息 被 赋值 ， 如 果 顾 客 拥 有 Simmons 信用 卡 ， 则 被 赋值 为 1; 否则 为 0。 优 惠 券 的 信息 也 
被 赋值 ， 如 果 样 本 中 的 顾客 使 用 了 优惠 券 并 购买 了 200 美元 或 200 美元 以 上 的 商品 ， 则 被 赋值 为 1; 否则 为 0。 

表 15-11 Simmons 商店 例子 的 部 分 样本 数据 


年 消费 支出 ~ ! ”年 消费 支出 WEL i 
顾客 (1000 美元 ) Simmons 信用 卡 优惠 券 顾客 (1000 美元 ) Simmons 信用 卡 优惠 券 
om 2. 291 了 的 这 二- 2.473 Wr 1 
Py 3.215 1 Hi0 7 2.384 0 0 

3 2. 135 1 0 8 7.076 0 0 
4 3. 924 0 0 9 1. 182 1 1 
5 _ 2.528 I 0 10 3. 345 to 0 





帮助 Simmons 预测 ， 一 名 商品 目录 的 接受 者 
是 否 将 使 用 优惠 券 并 购买 200 美元 或 200 美元 以 上 的 商品 。 我 们 用 年 消费 支出 和 Simmons 信用 卡 作为 自 变 量 ， 优 
惠 券 作为 应 变量 。 因 为 应 变量 仅 可 以 被 假定 为 两 个 值 ，0 或 1， 所 以 无 法 应 用 常规 的 多 元 回归 模型 。 这 个 例子 说 
明 ， 在 怎样 的 情形 下 ， 应 建立 logistie 回归 这 种 类 型 的 模型 。 下 面 我 们 将 看 到 ， 如 何 利用 logistic 回归 去 帮助 Sim- 
mons 预测 哪 一 种 类 型 的 顾客 最 有 可 能 利用 商店 直接 邮寄 广告 的 促销 手段 。 


15. 9. 1 logistic 回归 方程 


我 们 可 以 利用 表 15-11 的 数据 建立 一 个 多 元 回归 模型 ， 该 模型 能 





在 许多 方面 ，logistic 回归 与 普通 回归 是 类 似 的 。logistic 回归 需要 一 个 应 变量 y 和 一 个 或 一 个 以 上 的 自 变 量 。 
在 多 元 回归 分 析 中 ， 我 们 把 y 的 平均 值 或 期 望 值 称 为 多 元 回归 方程 。 
E(y) = Bo +Bix, + Bixs ti + Bx, (15-26) 
”在 logistic 回归 中 ， 我 们 不 但 在 实践 上 ,而 且 在 统计 理论 上 也 已 经 证 明了 : 下 面 的 非 线 性 方程 较 好 地 描述 了 
(YY) 和 %，zx;，…，%, 之 间 的 关系 。 





如 果 应 变量 y 的 两 个 值 被 赋值 为 0 或 1， 那 么 在 自 变 量 %,，x,，…,%, 的 一 组 特定 值 已 知 的 条 件 下 ， 式 (15-27) 
中 E(y) 的 值 给 出 了 y=1 的 概率 。 由 于 EE(y) 被 解释 为 概率 ， 所 以 通常 将 logistic 回归 方程 (logistic regression e- 
quation) 写成 如 下 形式 。， 





为 了 更 好 地 理解 logistic 回归 方程 的 特征 ， 假 定 模型 仅 包括 10 
一 个 目 变量 i， 并 且 模 型 的 参数 值 为 B; = 和 有 SE 对 应 这 些 0.8 
参数 值 ，logistic 回归 方程 为 


E(y) =P(y'= 1 | = 


1 和 入 1 (13-29) 04 
图 15- 12 是 式 (15- 29) 的 图 示 。 注 意 ， 图 形 为 一 条 S 形 曲 。 2 

线 。E(y) 的 取 值 范围 为 0~1， 当 自 变 量 * 的 值 变 得 愈 来 愈 大 000 3 

时 ， 则 E(y) 的 值 逐 渐 地 增加 ， 并 且 愈 来 愈 接近 于 1; 当 自 变量 自 变量 (x) 

x 的 值 变 得 愈 来 您 小 时 ， 则 E(y) 的 值 逐渐 地 减少 ， 并 且 愈 来 您” 图 15-12 对 于 By = -7，pBi =3 的 logistic 回归 方程 
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接近 于 0。 还 需要 注意 的 是 ， 当 自 变 量 * 的 值 从 2 增加 到 3 时 ， 表 示 概 率 的 E(y) 的 值 增加 得 非常 快 。 由 于 E(y) 
的 取 值 范围 为 0~1 各 (y) 为 一 条 S 形 曲 线 这 两 个 事实 ， 就 从 理论 上 使 式 (15-29) 非常 适合 做 应 变量 的 概率 等 
于 1 的 模型 。 
15. 9. 2 ”估计 logistic 回归 方程 

在 简单 线性 回归 和 多 元 回归 时 ， 我 们 利用 最 小 二 乘法 计算 模型 参数 (B,，B, ，B,，…，B,) 的 估计 量 b,, 5b,， 
b,，…，b,。 因 为 logistic 回归 方程 具有 非 线性 形式 ， 因 此 计算 估计 量 的 方法 要 更 复杂 ， 并 且 超 出 了 本 教科 书 的 范 
围 。 我 们 将 利用 计算 机 软件 包 求 出 这 些 估计 量 ， 得 到 了 下 面 的 估计 的 logistic 回归 方程 (estimated logistic regression 
equation) 。 






现在 让 我 们 回 到 Simmons 商店 的 例子 。 在 这 个 问题 中 ， 我 们 定义 的 变量 如 下 所 示 。 
,= 人 各 大 守 这 有 使用 优惠 
11 ,如 果 顾客 使 用 了 优惠 券 
xi = 在 Simmons 商店 的 年 消费 支出 (1 000 美元 ) 
ke te 
1, 如 果 顾 客 有 Simmons 信用 卡 
于 是 ,我 们 选择 有 两 个 自 变量 的 logistic 回归 方程 。 
eB Bs tH 


E(y) = 本 (15-31 ) 
我 们 利用 样本 数据 ( 见 表 15-11) 和 Minitab 的 二 进 制 logistie 回归 程序 计算 模型 参数 B,，B,，B, 的 估计 值 。 


得 到 的 Minitab 的 部 分 输出 如 图 15-13 所 示 。? 我 们 看 到 ，b。 = -2.14637，b, =0.341 643 和 b, =1.098 73 。 于 是 估 
计 的 logistic 回归 方程 是 





btber tb @ -1637 +0.341 643xi+1. 098 73z, 


6 37 0 IM Clr. 1 OB Tox (15-32) 


条 由 基于 办 2 ” 1 Pe 


1l+e 


[Logistic Regression Table 






Predictor Coef SE Coef 
-2.14637 0.577245 

0.341 643 0.128672 

1.098 73 0.444 696 


Log-Likelihood=-60.487 
Test that all slopes are zero: G=13.628, DF=2, P-Value=0.001 了 
图 15-13 ”对 于 Simmons 商店 例子 的 logistic 回归 的 部 分 输出 
现在 我 们 就 能 利用 式 (15-32) 估计 一 种 特定 类 型 的 顾客 使 用 优惠 券 的 概率 。 例如 ， 对 于 去 年 的 消费 支出 为 
2 000 美 元 和 没有 Simmons 信用 卡 的 顾客 ， 我 们 估计 他 们 使 用 优惠 券 的 概率 。 为 此 我 们 将 x, =2，x, =0 代入 
式 (15-32) 中， 得 到 


龟 在 本 书 所 附 光 盘 的 附录 15C， 我 们 给 出 了 如 何 使 用 Minitab 生成 如 图 15-13 所 示 的 输出 。 
名 在 Minitab 输出 中 , x! =Spending 和 x, =Card。 
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于 是 ， 对 于 这 种 特定 类 型 的 顾客 群体 ， 他 们 使 用 优惠 券 的 概率 大 约 为 0.19。 类 似 地 ， 我 们 可 以 估计 去 年 的 消 
费 支出 为 2000 美元 和 拥有 Sirimons 信用 卡 的 顾客 ,他 们 使 用 优惠 券 的 概率 。 为 此 ， 我 们 将 =2，xw, =1 代入 
式 (区 -32)， 得 到 


于 是 ， 对 于 这 种 特定 类 型 的 顾客 群体 ， 他 们 使 用 优惠 券 的 概率 大 约 为 0.41。 这 一 结果 显示 出 : 拥有 Simmons 
信用 卡 的 顾客 ， 他 科 使 用 优惠 券 的 概率 要 比 没有 Simmons 信用 卡 的 顾客 大 得 多 。 但 是 ， 在 推断 出 任何 的 结论 之 前 ， 
我 们 必须 对 得 到 的 估计 的 logistie 回归 方程 的 统计 显著 性 进行 评估 。 


15. 9. 3 显著 性 检验 


logistic 回归 的 显著 性 检验 与 多 元 回归 的 显著 性 检验 相 类 似 。 首 先 ， 我 们 进行 总 体 的 显著 性 检验 。 对 于 Sim- 
mons 商店 的 例子 ， 总 体 的 显著 性 检验 如 下 : 
H,: B=B, =0 
H.: 至 少 有 一 个 参数 不 等 于 零 
总 体 的 显著 性 检验 是 根据 C 检验 统计 量 的 值 进 行 的 。 如 果 原 假设 成 立 ， 则 6G 统计 量 的 抽样 分 布 为 服从 自由 度 
等 于 模型 中 自 变 量 个 数 的 x 分布。 虽然 6G 统 计量 的 计算 超出 了 本 教科 书 的 范围 ,但 是 6G 统计 量 的 值 和 它 所 对 应 的 
P- 值 ， 已 在 Minitab 的 二 元 logistic 回归 的 输出 部 分 给 出 。 我 们 从 图 15-13 的 最 后 一 行 看 到 6 统计 量 的 值 是 13. 628， 
它 的 自由 度 是 2， 它 的 p- 值 是 0.001。 于是， 在 a 三 0. 001 的 任 一 显著 性 水 平 下 ， 我 们 应 该 拒绝 原 假 设 ， 并 且 得 到 
模型 的 总 体 是 显著 的 结论 。 
如 果 G6 检验 表明 模型 的 总 体 是 显著 的 ， 那 么 我 们 就 可 以 利用 z 检验 来 确定 每 一 个 单个 的 自 变量 对 模型 总 体 是 
否 有 显著 的 作用 。 对 于 自 变 量 x,， 提 出 的 假设 是 
H,: B.=0 
H,: B.A0 
如 果 原 假设 成 立 ， 则 估计 的 系数 45, 除 以 它 的 标准 差 s, 后 ， 得 到 的 结果 z=，;/s, 为 一 服从 标准 正 态 分 布 的 统计 
量 。 在 Minitab 输出 中 的 列 标题 “Z” 包 含 了 每 一 个 被 估计 的 系数 的 z, 值 ， 列 标题 “p” 包 含 了 对 应 的 p 值 。 假 定 
我 们 在 a =0. 05 的 显著 性 水 平 下 ， 检 验 Simmons 商店 模型 中 自 变 量 的 显著 性 。 对 于 自 变量 x,，z 值 是 2. 66 ， 对 应 
的 产值 是 0.008。 于 是 ,在 w =0.05 的 显著 性 水 平 下 ， 我 们 应 该 拒绝 Ho: B, =0。 用 类 似 的 方法 ， 我 们 也 应 该 拒绝 
H,: B; =0， 这 是 因为 对 应 于 z=2.47 的 p- 值 是 0.013。 所 以 在 a=0.05 的 显著 性 水 平 下 ， 两 个 自 变量 在 统计 上 都 
是 显著 的 。 


15. 9.4 ”管理 上 的 应 用 


我 们 已 经 讨论 了 如 何 建立 估计 的 logistic 回归 方程 和 如 何 检 验 它 的 显著 性 。 现 在 让 我 们 利用 这 些 结果 对 Sim- 
nions 商店 通过 邮寄 商品 目录 进行 促销 的 问题 作出 一 个 决策 建议 。 对 于 Simmons 商店 ， 我 们 已 经 计算 出 了 P (y= 
1 |x, =2, x, =1) =0,4099 和 P (y=1 |x, =2，x, =0) =0.1880。 这 些 概率 表明 : 对 于 去 年 的 消费 支出 为 2000 美 
元 的 顾客 ， 拥 有 Simmons 信用 卡 增加 了 使 用 优惠 券 购买 商品 的 概率 。 对 去 年 的 消费 支出 1 000 ~7 000 美元 的 两 类 
顾客 : 一 类 拥有 Simmons 信用 卡 ， 男 一 类 没有 Simmons 人 信用卡， 我们 在 表 15-12 中 看 到 了 他 们 使 用 优惠 券 的 估计 
的 概率 。Simmons 将 如 何 利用 这 些 信息 ， 为 顾客 制定 新 的 促销 策略 ? 假定 Simmons 只 愿意 将 促销 的 商品 目录 邮寄 
给 那些 使 用 优惠 券 的 概率 等 于 或 大 于 0. 40 的 顾客 。 利用 表 15-12 中 估计 的 概率 ，Simmons 促销 策略 应 该 是 : 

拥有 Simmons 信用 卡 的 顾客 : 对 去 年 的 消费 支出 为 2 000 美元 或 2 000 美元 以 上 的 每 一 位 顾客 都 邮寄 促销 的 
商品 目录 。 
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没有 Simmons 信用 卡 的 顾客 : 对 去 年 的 消费 支出 为 6000 美元 或 6 000 美元 以 上 的 每 一 位 顾客 都 邮寄 促销 的 


商品 目录 。 
表 15-12 Simmons 商店 的 估计 的 概率 
去 年 的 消费 支出 (美元) 
1 000 2 000 3000 4 000 5 000 6 000 7 000 
拥有 信用 卡 0. 3305 0. 4099 0., 494 3 0.5791 0.659 4 0.7315 0. 793 1 


没有 信用 卡 0, 1413 0.1880 0.2457 0.3144 0.3922 0.4759 0. 5610 


我 们 再 进一步 留意 一 下 估计 的 概率 ， 我 们 看 到 ， 对 于 没有 Simmons 信用 卡 ， 但 是 去 年 的 消费 支出 为 5 000 美 
元 的 顾客 ， 他 们 使 用 优惠 券 的 概率 是 0. 392 2。 于 是 ，Simmons 或 许 觉 得 需要 修订 这 一 促销 策略 ， 即 将 那些 虽然 没 
有 Simmons 信用 卡 ， 只 要 去 年 的 消费 支出 为 5 000 美元 或 5 000 美元 以 上 的 顾客 也 包括 进来 。 


15. 9. 5 ”解释 logistic 回归 方程 


对 一 个 回归 方程 作出 解释 涉及 与 我 们 建立 方程 要 回答 的 商务 问题 有 关 的 自 变量 。 利 用 logistic 回归 ， 直 接地 解 
释 自 变量 和 y=1 的 概率 之 间 的 关系 非常 困难 ， 这 是 因为 logistic 回归 方程 是 非 线 性 方程 。 但 是 统计 学 家 们 已 经 证 
明 : 他 们 能 利用 一 个 被 称 为 机 会 比率 的 概念 间接 地 解释 这 一 关系 。 
有 利于 一 个 事件 发 生 的 机 会 比 (odds in favor of an event occurring) 被 定义 为 事件 将 要 发 生 的 概率 与 该 事件 将 
不 会 发 生 的 概率 的 比 。 在 logistic 回归 中 ,我 们 总 是 将 感 兴趣 的 事件 设 定 为 y=1。 于 是 在 自 变量 的 一 组 特定 值 已 知 
时 ， 有 利于 事件 y=1 发 生 的 机 会 比 能 按 下 式 计算 : 
P(g a dl 到 人 = Ll, ae sd 
机 会 比 = Ply sO | 二 P(y =T|x， 2 
机 会 比率 (odds ratio) 度量 了 当 一 组 自 变量 中 只 有 一 个 自 变 量 增加 了 一 个 单位 时 ， 对 机 会 比 的 影响 。 机 会 比 
率 是 当 给 定 的 一 组 自 变量 中 的 一 个 自 变 量 增 加 了 一 个 单位 时 ，y =1 的 机 会 比 (odds, ) 除 以 该 组 自 变量 的 值 都 没 





(15-33) 


0 sa a% 





例如 ， 假 定 我 们 想 要 对 去 年 的 消费 支出 为 2000 美元 并 且 拥 有 Simmons 信用 卡 的 顾客 (x, =2，x, =1) 使 用 优 
惠 券 的 机 会 比 ， 与 去 年 的 消费 支出 为 2000 美元 但 没有 Simmons 信用 卡 的 顾客 (x, =2，x, =0) 使 用 优惠 券 的 机 会 
比 进行 比较 。 我 们 感 兴趣 的 是 : 解释 在 自 变量 *, 增 加 一 个 单位 时 的 影响 。 在 这 种 情形 时 ， 

i P(y = 1 |x, = 2 Ns 汪 , 芋 ) 
1-Pr=llz=2x =1) 
和 

a 
1-Ply=1|x, =2,x, =0) 

我 们 在 前 面 已 经 得 到 ， 在 x, =2，%, =1 时 ,y=1 的 概率 的 估计 值 是 0.4099，x =2, ‰ =0 时 ,y=1 的 概率 
的 估计 值 是 0. 188 0。 于 是 ， 


odds，= 


oddsi 的 估计 值 = 5 = 0.6946 


0. 188 0 
odds。 的 估计 值 = TI 二 01880 = 0. 231 5 


估计 的 机 会 比率 是 
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估计 的 机 会 比率 = 了 937 = 3 


于 是 ,我 们 能 够 断定 : 去 年 的 消费 支出 为 2 000 美元 并 且 拥 有 Simmons 信用 卡 的 顾客 使 用 优惠 券 的 机 会 比 是 
去 年 的 消费 支出 同 为 2 000 美元 但 没有 Simmons 信用 卡 的 顾客 使 用 优惠 券 的 机 会 比 的 3 倍 。 

当 所 有 其 他 的 自 变量 都 保持 不 变 时 ， 我们 能 计算 出 每 一 个 自 变 量 的 机 会 比率 。 但 是 所 有 其 他 的 自 变量 取 什 么 
样 的 常数 值 却 是 无 关 紧 要 的 。 例 如 ， 如 果 用 3 000 美元 代替 去 年 2 000 美元 的 消费 支出 (x, ) ， 我 们 对 Simmons 信 
用 卡 变量 (x, ) 计算 机 会 比率 ， 我 们 还 会 得 到 相同 的 机 会 比率 的 估计 值 (3. 00) 。 于 是 ,我 们 能 够 断定 : 拥有 
Simmons 信用 卡 的 顾客 使 用 优惠 券 的 机 会 比 是 没有 Simmons 信用 卡 的 顾客 使 用 优惠 券 的 机 会 比 的 3 倍 。 

对 于 logistie 回归 软件 包 ， 机 会 比率 是 标准 输出 。 让 我 们 参照 图 15-13 Minitab 的 部 分 输出 进行 说 明 。 列 标题 
“0dds Ratio” 包 含 了 每 一 个 自 变量 的 估计 的 机 会 比率 。x, 的 估计 的 机 会 比率 是 1. 41 ，x, 的 估计 的 机 会 比率 是 
3.00。 我 们 已 经 说 明了 应 该 如 何 解 释 二 进 制 的 自 变 量 x 的 估计 的 机 会 比率 。 现 在 让 我 们 考虑 如 何 解释 连续 型 自 变 
量 x 的 估计 的 机 会 比率 。 

在 Minitab 输出 的 列 标题 “Odds Ratio” 下 ,数值 1. 41 告诉 我 们 : 去 年 消费 支出 为 3 000 美元 的 顾客 使 用 优惠 
券 的 估计 的 机 会 比 是 去 年 消费 支出 为 2000 美元 的 顾客 使 用 优惠 券 的 估计 的 机 会 比 的 1.41 售 。 而且， 这 个 解释 对 
x 的 任何 一 个 单位 的 变化 都 成 立 。 例 如 ， 去 年 消费 支出 为 5 000 美元 的 顾客 使 用 优惠 券 的 估计 的 机 会 比 是 去 年 消 
费 支出 为 4000 美元 的 顾客 使 用 优惠 券 的 估计 的 机 会 比 的 1.41 信 。 但 是 ,假定 我 们 感 兴 趣 的 问题 是 ， 当 自 变 量 的 
增加 超过 一 个 单位 时 ， 机 会 比 的 变化 情况 。 注 意 ，x 的 取 值 范围 是 1 ~7。 作 为 Minitab 的 输出 被 打印 出 来 的 机 会 
比率 不 能 回答 这 个 问题 。 为 了 回答 这 个 问题 ， 我 们 必须 考察 机 会 比率 和 回归 系数 之 间 的 关系 。 

在 一 个 变量 的 机 会 比率 和 它 所 对 应 的 回归 系数 之 间 存 在 一 个 唯一 的 关系 。 在 一 个 logistic 回归 方程 中 ， 每 一 个 
自 变 量 都 能 表示 成 如 下 形式 





机 会 比率 = 

为 了 说 明 这 个 关系 ， 考 虑 在 Simmons 商店 例子 中 的 自 变 量 x,。x, 的 估计 的 机 会 比率 是 

估计 的 机 会 比率 =e se =1.4 

类 似 地 ，x, 的 估计 的 机 会 比率 是 

估计 的 机 会 比率 .=e: =e™” = 3.00 

一 旦 我 们 求 出 了 模型 参数 的 估计 值 ， 利 用 自 变 量 的 机 会 比率 和 回归 系数 之 间 的 关系 ， 就 能 很 容易 地 计算 出 机 会 
比率 的 估计 值 。 而 且 它 也 为 我 们 提供 了 当 连 续 型 自 变 量 的 变化 大 于 或 小 于 一 个 单位 时 ， 研 究 机 会 比率 变化 的 能 力 。 

当 一 个 自 变量 变化 一 个 单位 ， 而 所 有 其 他 的 自 变 量 都 保持 不 变 时 ， 一 个 自 变量 的 机 会 比率 描述 了 该 自 变量 机 会 
比 的 变化 。 假 定 ， 我 们 想 要 考虑 自 变 量 的 变化 大 于 一 个 单位 ， 比 如 c 个 单位 时 的 影响 。 例 如 ， 假 定 在 Simmons 商店 例 
子 中 ,我们 想 要 对 去 年 的 消费 支出 为 5 000 美元 (x, =5) 的 顾客 使 用 优惠 券 的 机 会 比 ， 与 去 年 的 消费 支出 为 2000 美 
元 (%1 =2) 的 顾客 使 用 优惠 券 的 机 会 比 进行 比较 。 在 这 种 情形 时 ，c =5 -2=3， 对 应 的 估计 的 机 会 比率 是 

Eb: = eM 二 049 -2 79 
这 个 结果 表明 : 去 年 消费 支出 为 5 000 美元 的 顾客 使 用 优惠 券 的 估计 的 机 会 比 是 去 年 消费 支出 为 2000 美元 的 顾客 
使 用 优惠 券 的 估计 的 机 会 比 的 2.79 倍 。 换 句 话说， 对 于 一 个 去 年 消费 支出 增加 3 000 美元 的 顾客 而 言 ， 使 用 优惠 
券 的 估计 的 机 会 比率 是 2.79。 

一 般 说 来 ， 机 会 比率 使 我 们 能 够 比较 两 个 不 同事 件 的 机 会 比 。 如 果 机 会 比率 的 值 是 1， 那 么 两 个 事件 的 机 会 
比 是 相同 的 。 于 是 ， 如 果 正 在 考虑 的 自 变量 (例如 Simmons 信用 卡 的 状态 ) 对 事件 发 生 的 概率 有 一 个 正 影响 ， 那 
么 对 应 的 机 会 比率 将 大 于 1。 大 多 数 的 logistic 回归 软件 包 都 给 出 了 机 会 比率 的 置信 区 间 。 图 15-13 的 Minitab 输出 
对 每 一 个 机 会 比率 都 给 出 了 置信 水 平 为 95% 的 置信 区 间 。 例 如 % 的 机 会 比率 的 点 估计 值 是 1.41， 置 信 水 平 为 
95% 的 置信 区 间 是 (1. 09，1. 81 ) 。 因 为 置信 区 间 不 包含 数值 1， 所 以 我 们 能 够 断定 : x 对 估计 的 机 会 比率 有 一 个 
显著 的 影响 。 类 似 地 ，x, 的 机 会 比率 的 置信 水 平 为 95% 的 置信 区 间 是 (1.25, 7. 17) 。 因 为 这 个 区 间 也 不 包含 数 
值 1， 所 以 我 们 也 能 够 断定 : x, 对 估计 的 机 会 比率 有 一 个 显著 的 影响 。 
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15. 9. 6 对 数 机 会 比 (logit) 变换 
在 有 利于 y=1 的 机 会 比 和 logistic 回归 方程 中 。 的 指数 之 间 ， 我 们 能 够 观察 到 一 个 有 趣 的 关系 。 这 个 关系 可 
以 表示 为 


ln(odds) = B, + Bx, + Bx, + ** 六 
这 个 方程 表明 : 有 利于 y=1 的 机 会 比 的 自然 对 数 是 自 变量 的 线性 函数 。 我 们 称 这 个 线性 函数 为 对 数 机 会 比 
(logit) s 我 们 用 符号 g(x ， Ni "Ys ) 表示 对 数 机 会 比 。 





a %,) 代替 式 (S27) 中 的 局 +Bix ts 巴 BY 我 们 能 将 logistic 回归 方程 写成 如 下 形式 

B(y) = 一 2 (15-36) 

一 旦 我 们 估计 出 logistic 回归 方程 的 参数 ， 我 们 就 能 计算 出 对 数 机 会 比 的 估计 值 。 我 们 用 符号 8 (x,，x%,，…， 
各) 表示 估计 的 对 数 机 会 比 (estimated logit) ， 从 而 我 们 就 得 到 


' 己 Do E a 4 
i 由 人 以 Ey - 下 Ee 和 a 2 二 
一 加 & ,7 证 内 ee 本 Wn 区 nes 二 wo - 站 
全 亲 0 ! 由 ye 
p YW ” + » 





于 是 ， 根 据 估计 的 对 数 机 会 比 ， 估 计 的 logistic 回归 方程 是 


besbirsthyryt r+, (ms) 


e e 
3 1 十 @ ot Dish hat Et | 十 区 生生 er) 


对 于 Simmons 商店 的 例子 ， 估 计 的 对 数 机 会 比 是 
g(%1,%) = 一 2.14637 +0.341 643x, + 1.098 73x， 
估计 的 logistie 回归 方程 是 


(15-38) 


@e (9) @ -2 14637 +0.341 6434,+L:098735 





上 二 ] FF ef) 1 + C4537+0 6s,+]. O08 7a, 


于 是 ， 由 于 在 估计 的 对 数 机 会 比 和 估计 的 logistie 回归 方程 之 间 存 在 唯一 的 关系 ， 所 以 我 们 能 计算 Simmons 商 
店 的 概率 ， ge ef 下 除 以 1 +es" 得 到 。 


: | LU 
pe 主 释 和 评论 





由 于 在 楼 型 中 被 估计 的 系数 和 对 应 的 机 会 比率 之 间 奉 在 唯一 的 关系 ， 建 立 在 G 统 计量 基础 上 的 总 体 的 显著 
性 检验 也 是 机 会 比率 的 总 体 显著 性 检验 。 另 外 ， 对 模型 单个 参数 显著 性 的 z 检 验 也 给 出 了 对 应 的 机 会 比率 
显著 性 的 统计 检验 。 

2. 在 简单 和 多 元 回归 情形 中 ， 我 们 利用 判定 系数 来 度量 模型 的 拟 合 优 度 。 在 logistic 回归 情形 中 ， 没 有 单一 
的 测度 能 给 出 类 似 的 解释 。 拟 合 优 度 的 讨论 已 经 超出 了 我 们 关于 logistic 回归 介绍 性 论述 的 范围 。 


J ， 





应 用 。 是否 将 使 用 优惠 券 可 得 到 的 有 用 信息 是 顾客 拥有 
44. 参阅 在 本 节 中 介绍 的 Simmons 商店 的 例子 。 如 果 顾 A 如 果 顾 客 拥有 Simmons 信用 卡 ， 则 
客 使 用 优惠 券 购买 了 商品 ， 则 应 变量 被 赋值 为 了 = 自 变量 被 赋值 为 2=1， 否 则 ，% =0。 


1， 否 则 ，y =0。 假 定 ， 唯 一 能 帮助 我 们 预测 顾客 a 写 出 了 关于 x 的 logistic 回归 方程 。 


b. 当 * =0 时 ， 如 何 解 释 忆 (7)? 

c， 对 于 表 15-11 中 Simmons 商店 的 数据 ， 利 用 Minit- 
ab 计算 估计 的 对 数 机 会 比 (estimated logit) 。 

d. 利用 在 (c) 中 得 到 的 估计 的 对 数 机 会 比 ， 计 算 
没有 Simmons 信用 卡 的 顾客 使 用 优惠 券 购买 商品 
的 概率 的 估计 值 ， 以 及 计算 拥有 Simmons 信用 卡 
的 顾客 使 用 优惠 券 购买 商品 的 概率 的 估计 值 。 

e. 机 会 比率 的 估计 值 是 多 少 ? 它 的 解释 是 什么 ? 

.Community Bank 想 增加 使 用 工资 单 直接 存款 的 客户 

人 数 。 管 理 部 门 考虑 一 个 新 的 销售 计划 ， 该 计划 

将 要 求 每 一 个 部 门 的 管理 人 员 电 话 联系 每 一 位 目 

前 没有 使 用 工资 单 直接 存款 的 客户 。 作 为 登记 报 

名 参加 使 用 工资 单 直接 存款 计划 的 一 种 奖励 ， 将 

为 每 一 位 有 联系 的 客户 提供 两 年 的 免费 账目 核对 。 

由 于 新 计划 涉及 时 间 和 费用 方面 的 原因 ， 管 理 部 

门 想 把 他 们 的 努力 集中 在 登记 报名 参加 使 用 工资 

单 直 接 存款 计划 概率 最 高 的 那些 客户 身上 。 管 理 

部 门 相信 : 客户 支票 账户 上 的 平均 每 月 的 余额 可 

能 是 该 客户 是 否 参 加 使 用 工资 单 直接 存款 计划 的 

有 帮助 的 预测 器 。 为 了 查 明 这 两 个 变量 之 间 的 关 

系 ，Community Bank 抽取 了 50 位 目前 没有 使 用 工 

资 单 直接 存款 的 支票 账户 客户 组 成 了 一 个 随机 样 

本， 然后 利用 这 个 样本 来 试验 新 的 计划 。 样 本 数 

据 给 出 了 支票 账户 平均 每 月 的 余额 (1 000 美元 ) 

和 管理 人 员 电 话 联系 过 的 客户 是 否 登 记 报 名 参加 

使 用 工资 单 直接 存款 计划 (如果 客户 登记 报名 参 

加 使 用 工资 单 直 接 存款 计划 ， 则 被 赋值 1， 否 则 被 

赋值 0)。 这 些 数据 被 存放 在 本 书 所 附 光盘 名 为 

Bank 的 数据 集 里 ; 部 分 数据 如 下 表 所 示 。 


X= 支 票 账户 平均 每 月 
客户 余额 (1 000 美元 ) y= 直接 存款 
1 ,22 0 
2 1. 56 0 
3 2.10 0 
4 2. 25 0 
5 2. 89 0 
6 3. 55 0 
7 3. 56 0 
8 3.65 1 
48 18. 45 I 
49 24. 98 0 
50 26. 05 1 





a. 写 出 y 关 于 x 的 logistic 回归 方程 。 


48. 
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b. 对 于 Community Bank 的 数据 ， 利 用 Minitab 计算 
估计 的 logistie 回归 方程 。 

c. 在 a=0.05 的 显著 性 水 平 下 ,利用 G 检验 统计 
量 ,， 进行 显著 性 检验 。 

， 如果 客户 平均 每 月 支票 账户 的 余额 为 1 000. 美 
元 ， 估 计 该 客户 将 登记 报名 参加 使 用 工资 单 直 
接 存款 计划 的 概率 。 

e. 假定 Community Bank 只 希望 与 登记 报名 参加 使 用 
工资 单 直 接 存 款 计 划 的 概率 大 于 或 等 于 0.5 的 客 
户 进行 电话 联系 。 要 达到 这 个 要 求 的 概率 水 平 ， 
客户 的 平均 每 月 支票 账户 的 余额 应 是 多 少 ? 

f 机 会 比率 的 估计 值 是 多 少 ? 它 的 解释 是 什么 ? 

Tire Rack 杂志 保持 了 一 项 独立 的 消费 者 调查 工作 ， 

通过 司 酌 们 的 互相 帮助 ， 来 分 享 他 们 长 期 使 用 轮 

胎 的 经 验 。 对 68 条 全 季节 轮胎 的 调查 结果 存放 在 

本 书 所 附 光 盘 名 为 TireRatings 的 文件 中 (Tire Rack 

website，2012 年 3 月 21 日 )。 对 轮胎 的 性 能 特点 使 

用 下 面 的 10 分 制 评定 等 级 : 


| 
1 
标记 为 Wet 的 变量 的 数值 是 每 条 轮胎 湿 牵 引 性 能 
的 平均 等 级 ， 标 记 为 Noise 的 变量 的 数值 是 每 条 轮 
胎 产生 的 噪声 水 平 的 平均 等 级 。 受 访 者 还 被 问 道 ， 


使 用 下 面 的 10 分 制 评定 等 级 ,他们 是 否 会 再 次 购 
买 轮胎 : 


[= 加 


大 概 不 会 





标记 为 Buy Again 的 变量 的 数值 是 回答 再 次 购买 的 

平均 值 。 为 了 这 道 习 题 的 目的 ， 我 们 建立 下 面 的 二 
进 制 应 变量 : 
Purchase = { 如果 变量 Buy ein iad 
0, 如 果 变 量 Buy Again 的 值 < 7 

于 是 ， 如 果 Purchase =1， 受 访 者 大 概 或 肯定 

会 再 次 购买 轮胎 。 

a. 如 果 xi 表示 变量 Wet 的 性 能 等 级 ，%; 表示 变量 
Noise 的 性 能 等 级 ，y 表示 变量 Purchase， 写 出 7 
关于 和 x, 的 logistic 回归 方程 。 

b. 利用 Minitab 计算 估计 的 对 数 机 会 比 。 

c. 利用 估计 的 对 数 机 会 比 ， 对 于 变量 Wet 和 Noise 的 
性 能 等 级 都 是 8 的 一 条 特定 的 轮胎 ， 计 算 一 名 顾客 
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大 概 或 肯定 会 再 次 购买 该 轮胎 的 概率 的 估计 值 。 


d. 假设 变量 Wet 和 Noise 的 性 能 等 级 都 是 7。 这 对 


一 名 顾客 大 概 或 肯定 会 再 次 购买 具有 这 些 性 能 





广 页 在 这 二 章 蛙 ， 工 们 引入 了 澳元 回归 分 析 的 内 容 。 
多 元 回归 分 析 能 够 使 我 们 了 解 一 个 应 变量 是 如 何 依赖 
两 个 或 两 个 以 上 自 变 量 的 。 回 归 方 程 E(y) = + 
Bix +Bixs+… 和 十 B,%, 描 述 了 应 变量 y 的 平均 值 或 期 望 
值 是 如 何 依赖 自 变量 x ，“…，% 的 值 。 我 们 利用 样 
本 数据 和 最 小 三 乘法 建立 了 估计 的 回归 方程 y= 如 t+ 
biwi than + bowso 实际 站 和 9 庆 信 让 Bm, 类 
用 来 估计 模型 的 未 知 参数 Bu， Bis Bi, *, BB 的 样本 统 
计量 = 遍及 全 章 , 我 们 都 用 到 了 计算 机 打印 输出 ， 这 
是 为 了 强调 这 样 一 个 事实 : 统计 软件 包 蚌 完成 多 元 回 
归 分 析 所 需要 的 烦琐 计算 的 唯一 一 实用 工具 。 

作为 估计 的 回归 方程 拟 合 优 度 的 一 个 度量 ， 我 们 
介绍 了 多 元 判定 系数 的 概念 。 多 元 判定 系数 测定 了 在 
应变 量 y 的 变 玉 性 中 ， 能 被 估计 的 回归 方程 解释 的 部 
分 所 点 的 比例 。 人 和 修正 多 元 判定 系数 是 一 个 类 似 的 拟 合 










关键 术语 


| 


multiple regression analysis ”多 元 回归 分 析 包含 两 
个 或 两 个 以 上 自 变量 的 回归 分 析 。 

multiple regression model ”多 元 回归 模型 ”描述 应变 
量 y 是 如 和 何 依赖 自 变 量 %，，x,，*…，%, 和 误差 项 & 的 
数学 方程 。 

multiple regression equation ”多 元 回归 方程 应 变量 
的 期 望 值 或 平均 值 与 自 变 量 的 值 之 间 关 系 的 激 学 方 
程 ， 即 EBE(y)=Bo+Bi%i +Bxy + 二 Dan 

estimated multiple regression equation ”估计 的 多 元 回 
归 方 程 “根据 样本 数据 和 最 小 二 乘法 得 到 的 多 元 回 
归 方 程 的 估计 ， 即 Y= bo + bx + bx, 本 二 旋光 

least squares method ”最 小 二 乘法 用 来 建立 估计 的 
回归 方程 的 方法 。 这 个 方法 使 残 差 (应 变量 的 观测 值 
y 和 应 变量 的 估计 值 y 之 间 的 离 差 ) 的 平方 和 极 小 化 。 

multiple coefficient of determination ”多 元 判定 系数 
估计 的 多 元 回归 方程 拟 合 优 度 的 度量 。 它 被 理解 为 
在 应 变量 y 的 变 弄 性 中 ， 能 被 估计 的 回归 方程 解释 


作为 在 第 14 章 中 介绍 的 简单 线性 回归 分 析 的 推 


优 度 的 度量 ， 它 用 自 变量 的 个 数 进行 调整 ， 这 样 就 可 


等 级 的 一 条 特定 轮 稻 的 概率 会 有 和 什 必 影响 7 
e， 如 果 你 是 一 家 轮胎 公司 的 CEO， 
中 的 结果 告诉 你 什么 ? 


(c) 和 (d) 





以 避免 由 于 增加 较 多 自 变量 而 产生 的 高 估 和 影响。 

在 这 一 章 里 我 们 还 介绍 予 五 检验 币 1 检 验 ， 这 两 
个 检验 都 是 判断 变量 间 的 关系 在 统计 上 上 是否 晶 著 的 工 
具 。 下 检验 用 于 确定 应 变量 和 所 有 自 变量 之 间 在 总 体 
上 是 否 存 在 一 个 显著 的 关系 。 1 检验 用 于 确定 ， 在 回归 
模型 中 的 其 他 自 变量 已 知 时 ， 应 变量 各 单 沾 的 自 变 量 
之 间 是 和 否 存在 一 个 显著 的 关系 。 自 变量 之 加 的 相关 性 
被 称 为 多 重 共 线性 ， 我 们 刀 经 讨论 过 这 一 概念 。 

分 类 自 变 量 这 一 节 人 叙述 了 如 何 利 用 虚拟 变量 将 分 
类 数据 与 多 元 回归 分 析 结 合 起 来 。 残 差分 析 这 一 节 叙 
认 了 如 何 利 用 残 差 分 析 来 证 实 模 型 的 假设 、 检 测 异 常 
值 和 识别 有 影响 的 观测 值 的 方法 。 在 这 一 节 里 ， 我 们 
还 讨论 了 标准 化 残 差 、 杠 杆 率 、 学 生化 删除 残 差 和 库 
克 距 离 测 度 等 问题 。 作 为 本 章 的 结束 ， 我 们 用 一 节 的 
篇 幅 介 绍 了 logistic 回归 问题 ， 在 这 一 节 里 ， 我 们 讨论 
了 如 和 何 利用 logistic 回归 来 模拟 应 变量 可 能 仅 有 两 个 假 
定 值 的 情形 。 | 







二 

的 部 分 所 占 的 比例 。 

adjusted-multiple coefficient of determination “修正 多 
元 判定 系数 ”估计 的 多 元 回归 方程 氛 合 优 度 的 度量 ， 
它 用 自 变 量 的 个 数 进 行 调整 ， 这 样 就 可 以 避免 由 于 
增加 较 多 自 变量 而 产生 的 高 估 影 响 。 

multicollinearity ”多重 共 线 性 “用 于 描述 自 变 量 之 间 相 
关 性 的 术语 。 

categoricalindependent variable “分 类 自 变 量 使 用 分 
类 数据 的 自 变量 。 

dummy variable 虚拟 变量 用 于 模拟 分 类 自 变量 影 
响 的 变量 。 虚 拟 变 量 的 取 值 可 以 仅 为 0 或 1。 

leverage ”杠杆 率 自 变 量 的 值 与 自 变 量 的 平均 值 之 
间距 离 远 近 的 度量 。 

outlier 异常 值 与 其 他 数据 所 显示 的 趋势 不 相 易 合 的 
观测 值 。 

studentized deleted residuals ”学 生化 删除 残 差 通过 
从 数据 集中 删除 第 站 次 观测 值 ; 然后 完成 回 妇 分 析 





和 有 关 计 算 ， 得 到 一 个 修正 的 估计 的 标准 误差 ， 在 
修正 的 估计 的 标准 误差 的 基础 上 得 到 的 标准 化 残 差 。 

influential observation 有 影响 的 观测 值 对 回归 结果 
有 一 个 强 影响 的 观测 值 。 

Cook' s distance measure 库 克 距离 测度 建立 在 第 
i 次 观测 的 杠杆 率 和 第 i 次 观测 残 差 的 基础 上 的 观测 
影响 程度 的 度量 。 

logistic regression equation logistic 回归 方程 ”关于 五 
(yY) 的 数学 方程 ， 而 E(y) 是 对 于 自 变量 xi ，%a3 
的 值 ，y =1 的 概率 ， 即 EB(y) =P(y=1|%， x,，…， 

EP Br tbs +" th 
%, ) = er ho 

estimated logistic regression equation 估计 的 logistic 
回归 方程 根据 样本 数据 得 到 的 logistic 回归 方程 的 
信守 即 2 元 (y 5 和 的 竺 计 











多 元 回归 模型 
iB + By + BX + + Fe "(C135=1) 
多 元 回归 方程 
EE(WY) = +B + Ft Bw (15-2) 
估计 的 多 元 回归 方程 
y sb + bow bw + tb (15-3) 
最 小 二 乘法 准则 
min Dy (y, = F) (15-4) 
SST，SSR 和 和 SSE 之 间 的 关系 
SST = SSR + SSE (15-7) 
多 元 判定 系数 
HF 二 SST (1S-8 ) 
修正 多 元 判定 系数 
i ， 廊 引 区) 
7 一 万 一 ] 
均 方 回归 
MSR = > (15-12) 
均 方 误差 
a = (15.19) 
n-—-p=] 
下 检验 统计 和 量 
MSR 
WE MSE (15-14) 
t 检验 统计 量 
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= 

odds in favor of an event occurring 有 利于 一 个 事件 
发 生 的 机 会 比 事件 将 要 发 生 的 概率 与 该 事件 将 不 
会 发 生 的 概率 的 比 。 

odds ratio ”机 会 比率 当 一 组 自 变量 中 只 有 一 个 自 变 
量 增 加 了 一 个 单位 时 ,y=1 的 机 会 比 (odds,) 除 以 
该 组 自 变量 的 值 没 有 变化 时 ,y=1 的 机 会 比 
(odds。 ) ， 即 机 会 比率 = odds,/odds,。 

logit ”对 数 机 会 比 ” 有 利于 事件 y=1 发 生 的 机 会 比 的 
和 人 对 兴 ， 训 6Gwy my wo) ER Bi + 
应 大 十 让 BY 

estimated logit ”估计 的 对 数 机 会 比 ”根据 样本 数据 得 
到 的 双 数 机 会 化 的 估计 ， 邯 有 (Mi ， 人 人 二 ) = 


bo bi + Dim t" brio 








fi ba (15515) 
3 
第 i 次 观测 的 标准 化 残 差 
ee (15-23) 
第 i 次 观测 的 残 差 的 标准 差 
Th (15:24) 
库 克 距离 测度 
(Y, FY h. 
= | $25 
TREE 
logistic 回归 方程 
@PotBisi tAyrat HR 两 
By) 0 (15-27) 
估计 的 logistie 回归 方程 
Paw 的 千 社 
Bt dit 
= ,二 拓 | 十 二 守 ， 二"，' 填 记 (15-30) 
Bop “ug Tj 
机 会 比率 
机 会 比率 = oe (15-34) 
odds， 
对 数 机 会 比 
BC2i NM = Bo + 有 + Bx, 二 
(15%35) 
估计 的 对 数 机 会 比 
g(%, 0 b,%, 


(15-37) 





补充 练习 
a WB Nw 


50. 


52. 


54. 


商务 与 经 济 统计 
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电子 联营 公司 的 人 事主 管 建立 了 雇员 对 工作 满意 
程度 的 测试 成 绩 与 他 或 她 的 工龄 和 工资 率 之 间 关 
系 的 估计 的 回归 方程 如 下 。 
少 = 14.4 - 8.69x， + 13. 5x， 

式 中 ,为 工龄 (年 ); x, 为 工资 率 (美元 ); 
7 为 工作 满意 程度 的 测试 成 绩 (比较 商 的 分 数 表示 

对 工作 的 满意 程度 也 比较 高 )。 
a. 解释 在 这 个 估计 的 回归 方程 中 的 系数 。 
b. 对 于 有 4 年 工龄 ， 每 小 时 的 工资 为 6.5 美元 的 

一 名 和 雇员， 预测 他 对 工作 满意 程度 的 测试 成 绩 。 
参阅 第 49 题 ，Glearwater 大 学 招生 办 公 室 工作 人 员 
建立 了 该 校 学 生 大 学 毕业 考试 的 GPA 关于 SAT 的 数 
学 成 绩 和 高 中 阶段 的 GPA 的 估计 的 回归 方程 如 下 。 

人 = 一 1.41 +0.023 5x, +0.004 86x, 

式 中 ， 刀 代表 高 中 阶段 的 GPA; x, 代 表 SAT 的 数学 
成 绩 ; 了 代表 大 学 毕业 考试 的 GPA。 


Minitab 的 部 分 计算 机 输出 如 下 。 

回归 方程 是 了 = -1.41 +0. 023 5x, +0. 004 86x, 

预测 量 系数 系数 的 标准 差 5 值 

常数 -1.4053 0.484 8 

x 0. 023 467 0.008 666 下 

x 由 0. 001 077 

s=0.1298 R2= _% R=  % 

方差 分 析 

来 源 自由 度 平方 和 均 方 F 
回归 z 1. 762 09 Bi 
误差 en A 

总 的 9 1. 880 00 


a. 计算 Minitab 输出 中 空缺 的 数字 。 

b. 利用 严 检 验 ， 在 a=0.05 的 显著 性 水 平 下 ， 检 
验 变量 间 是 否 存 在 一 个 显著 的 关系 。 

c. 利用 t 检 验 ， 在 m=0.05 的 显著 性 水 平 下 ， 检 验 
了 : B, =0 和 阳 。: B: =0。 

d. 估计 的 回归 方程 对 观测 数据 的 拟 合 好 吗 ?请 作出 解释 。 

在 美国 ，Tire Rack 是 处 于 领先 地 位 的 轮胎 和 车 轮 

在 线 经 销 商 ， 为 了 向 客户 提供 令 人 满意 的 产品 ， 该 

经 销 商 进行 了 全 面 的 测试 ， 使 这 些 产品 均 能 满足 

客户 对 车 辆 、 驾 驶 风格 和 驾驶 条 件 的 要 求 。 此 外 ， 

Tire Rack 还 保持 了 一 项 独立 的 消费 者 调查 工作 ， 

通过 司机 们 的 互相 帮助 ， 来 分 享 他 们 长 期 使 用 元 

胎 的 经 验 。 下 面 是 对 18 条 最 高 性 能 的 夏季 轮胎 的 


ee 


56. 


, I Fa 六 s A 


调查 等 级 分 (等 级 分 为 1 ~10,，1 表示 最 差 .，10 表 
示 最 好 )。 变 量 “ 转 向 ”评定 的 是 轮胎 的 转向 反应 
性 等 级 ， 变 量 “ 胎 面 磨损 ”是 根据 司机 的 预期 评 
定 的 轮胎 胎 面 磨损 速率 的 等 级 ， 变 量 “ 再 次 购买 ” 
评定 的 是 司机 对 轮胎 的 整体 满意 度 ， 以 及 希望 再 
次 购买 同样 轮胎 愿望 的 等 级 (Tire Rack website ， 
2009 年 2 月 3 日 )。 


轮胎 转向 ” 胎 面 磨损 ”再 次 购买 
Goodyear Assurance TripleTred 8.9 8. 5 8.1 
MichelinHydroBdge 8.9 9.0 8.3 
Michelin Harmony 8.3 8.8 8.2 
Dunlop SP 60 8. 2 8. 5 7.9 
Goodyear AsstiranceComfor Tred 7.9 2 | 
Yokohama Y372 8.4 8.2 8.9 
Yokohama Aegis LS4 7.9 7.0 Wel 
Kumho Power Star 758 7.9 7.9 8.3 
Goodyear Assurance 7.6 5;8 4.5 
Hankook H406 开交 6.8 6.2 
Michelin Energy LX4 7.4 Sl 4.8 
Michelin MX4 0 6; 5 S53 
Michelin Symmetry 6,9 $7 4.2 
Kumho 722 了: 之 6.6 5.0 
Dunlop SP 40 A/S 6.2 4.2 3.4 
Bridgestone Inaignia SE200 5.7 证 3.6 
Goodyear Integrity 7 5,4 2.9 
Dunlop SP20 FE Bo 5.0 -| 


a. 建立 一 个 估计 的 回归 方程 ， 使 该 方程 在 轮胎 转 
向 反应 性 的 等 级 已 知 时 ， 能 用 来 预测 再 次 购买 
同样 轮胎 愿望 的 等 级 。 在 a =0.05 的 显著 性 水 
平 下 ， 检 验 变量 间 是 否 存在 一 个 显著 的 关系 。 

b. 在 (a) 中 建立 的 估计 的 回归 方程 对 观测 数据 的 
拟 合 好 吗 ? 请 作出 解释 。 

c， 建立 一 个 估计 的 回归 方程 ， 使 该 方程 在 轮胎 转 
向 反应 性 的 等 级 和 轮胎 胎 面 磨损 速率 的 等 级 已 
知 时 ， 能 用 来 预测 再 次 购买 同样 轮胎 愿望 的 
等 级 。 

d. 在 a=0.05 的 显著 性 水 平 下 ,检验 增加 的 “ 胎 
面 磨损 ” 自 变量 是 显著 的 自 变量 吗 ? 

下 面 是 包含 45 只 共同 基金 有 关 信 息 的 数据 集 的 一 

部 分 ， 这 些 共 同 基 金 是 2008 年 晨星 基金 500 

( Morningstar Funds 500) 的 一 部 分 。 完 整 的 数据 集 

可 以 从 本 书 所 附 光 盘 名 为 MutualFunds 的 文件 中 得 

到 。 数 据 集 包括 以 下 5 个 变量 : 


第 15 章 多 元 回归 389 


基金 类 型 : 国内 股票 、 国 际 股票 和 固定 收益 。 b. 在 (a) 中 建立 的 估计 的 回归 方程 对 观测 数据 的 
资产 净值 《美元 ) : 2007 年 12 月 31 日 的 每 股 收盘 价 。 拟 合 好 吗 ? 请 作出 解释 。 

5 年 平均 收益 率 (%): 过 去 5 年， 基金 的 平均 年 收 率 著 。 co. 建立 一 个 估计 的 回归 方程 使 该 方程 在 基金 类 
费用 比率 (% ): 每 个 会 计 年 度 从 资产 中 扣除 的 共 型 、 资 产 净 值 和 费 衣 比率 已 知 时 ， 能 用 来 预测 
金 费用 的 比例 。 过 去 5 年 基金 的 平均 收益 率 。 在 a=0.05 的 显 
晨星 排名 : 每 一 只 基金 的 风险 调整 星 级 ; 展 星 排 名 著 性 水 平 下 ， 检 验 变量 间 关 系 的 显著 性 。 你 党 
从 最 低 的 1 星 到 最 高 的 5 星 。 得 是否 有 变量 应 从 估计 的 回归 方程 中 删除 ? 
人 请 作出 解释 。 


资产 5 年 平均 费用 展 星 i 
基金 名 称 基金 类 型 ”净值 ”收益 率 比率 排名 d， 晨星 排名 是 一 个 分 类 变量 。 因 为 数据 中 只 包含 四 个 


星 级 (从 2 星 到 5 是 ) ， 所 以 利用 下 面 的 虚拟 变量 ; 
Amer Ine & Growth Iny 国内 股票 ,8 .6 星 3 ST 如 果 是 一 只 3 星 枯 金 . 否则 ， 


American Century Intl. Disc 国际 股票 14.37 30.53 1.41 3 星 


Niom Cadiry Tr-Ree Bond 圈定 收 闪 10:73 3 到 0 和 水 星 3StarRank =0; 

Ameriean Century Ultra ” 国内 股票 24.94 10.88 0.99 3 星 4StarRank = 上， 如 果 是 一 只 扫 星 基金 ， 否 则 ， 
Ariel 国内 股票 46,39 。 11:32 1.03 2 是 49tarRank =0; 

Artisan Intl Val 国际 股票 25.52 24.95 1.233 是 5StarRank = 1, 如 果 是 一 只 5 星 基 金 ， 香 则 ， 
Artisan Small Cap 国内 股票 16.92 15.67 1.183 星 setarRank =0 

Baron Asnet 国 骨 股票 50:67” ”16.77 1.315 星 


Brandywine 6 国内 股票 36. 58 18. 14 1.08 4 量 建立 一 个 估计 的 回归 方程 ， 使 该 方程 在 基金 类 
3 - 和 型、 费用 比率 和 晨星 排名 已 知 时 ， 人 能 用 来 预测 
过 去 5 年 的 基金 平均 收益 率 。 在 a =0.05 的 显 


a. 建立 一 个 估计 的 回归 方程 使 该 方程 在 基金 类 著 性 水 平 下 ， 删 除 任何 不 显著 的 自 变量 。 
型 已 知 时 ， 能 用 来 预测 过 去 5 年 基金 的 平均 收 e， 对 于 一 只 费用 比率 为 1.05%， 展 星 排名 为 3 星 级 
益 率 。 在 a =0: 05: 的 显著 性 水 平 下 ， 检 验 变量 问 的 国内 般 票 基金 ， 利 用 在 (dd) 中 建立 的 估计 的 
关系 的 显著 性 。 回归 方程 ， 预 测 该 基金 过 去 $ 年 的 平均 收益 率 。 












消费 者 调 合 股份 有 限 会 纪 


消费 者 调查 股份 有 限 公 司 是 一 家 独立 的 机 构 ， 该 机 构 为 各 种 类 型 的 厂商 调查 消费 者 的 态度 和 行为 。 在 一 项 研 
究 中 ,公司 的 客户 要 求 对 消费 者 的 特点 进行 调查 ， 其 目的 是 为 了 能 预测 消费 者 使 用 信用 卡 进行 支付 的 数额 。 对 于 
由 50 咯 消 费 者 组 成 的 一 个 样本 ， 采 集 了 有 关 年 收入 s 家 庭 成 员 从 数 和 年 信用 卡 支 付 数额 的 统计 资料 。 下 表 所 示 
的 数据 存放 在 本 书 所 附 光 盘 名 为 Consumer 的 文件 中 。 


年 收入 ” ”家 庭 成 ” ”信用 卡 支付 年 收入 
(1000 美元 ，” 员 人 数 。 ”数额 (美元 ) (1 000 美元 ) 



















家 庭 成 
员 人 数 


信用 卡 支付 
数额 (美元 ) 


年 收入 家 庭 成 信用 卡 支付 
(1000 美元 ) ” 员 人 数 数额 (美元 ) 





$54 4016 2 62 3 4705 
30 2 3 159 1 64 2 4157 
32 4 5 100 5 22 3 33519 
50 5 4742 6 29 4 3 890 
31 2 1 864 3 39 2 912 
55 2 4070 7 35 ] 3 121 
37 ] 27131 2 39 4 4 183 
40 2 3 348 了 54 3 3.730 
66 + 4 764 6 23 6 4127 
51 3 4110 | 27 2 2921 
25 3 4 208 2 26 天 4 603 
48 4 4219 3 61 2 4 273 
27 ] 2477 4 30 2 3067 
33 2 2514 2 22 1 3074 
65 3 4214 5 +40 5 4 820 
63 4 4965 6 66 4 5 149 
42 6 4412 2 
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1 利用 描述 统计 学 的 方法 整理 这 些 数 据 。 对 你 的 发 现 进行 评述 。 

2. 首先 用 年 收入 作为 自 变 量 ， 然 后 用 家 庭 成 员 人 数 作 为 自 变 量 , 分别 建立 估计 的 回归 方程 ; 那 一 个 自 变量 是 
更 好 地 预测 年 信用 卡 支 付 数 额 的 变量 ? 讨论 你 的 发 现 。 

3. 用 年 收入 和 家 庭 成 员 人 数 作为 自 变 量 ， 建立 估计 的 回归 方程 。 讨 论 你 的 发 现 。 

4. 对 于 年 收入 为 40 000 美元 的 三 口 之 家 ， 该 家 庭 预 测 的 年 信用 卡 支 付 数 额 是 多 少 ? 

5. 请 对 模型 是 否 需 要 增加 其 他 的 自 变 量 进行 讨论 。 增 加 自 变量 可 能 会 有 什么 帮助 ? 





案例 15-2 ”预测 NASCAR 车 手 的 奖 完 2 站 一 了 


< 2 


MattKenseth 赢得 了 纳 斯 卡 赛车 (NASCAR ， 全 美 运动 汽车 竞赛 协会 的 缩写 ) 2012 年 赛季 最 重要 的 比赛 Dayto- 
na 500。 他 的 获胜 并 不 令 人 意外 ， 因 为 他 在 2011 赛季 的 积分 榜 上 ， 以 2330 分 名 列 第 四 a 落后 于 Tony Stewart (2 
403 分 ) ，Carl Edwards (2 403 分 ) 和 Kevin Harvick (2 345 分 ) 。 在 2011 年 ，Matt Kenseth 挣 了 6183 580 美 元 的 奖 
金 ， 因 为 他 得 三 次 首发 ( 排 位 赛 最 快 的 车 手 )， 获 得 三 场 比 赛 胜利 ，12 次 进入 前 五 名 ，20 次 进入 前 十 名 。 在 2011 
年 ，NASCAR 的 积分 系统 规定 ， 第 一 名 车 手 得 到 43 个 积分 ， 第 二 名 车 手 得 到 4 筷 个 积分 ， 等 等 ， 直 到 第 四 十 三 名 
车 手 得 到 1 个 积分 。 男 外 ， 领 先 一 图 的 任何 车 手 得 到 1 个 奖励 积分 ， 领 先 最 多 图 的 车 手 得 到 额外 的 奖励 积分 ， 并 
且 给 比赛 获胜 者 奖励 3 个 积分 。 但 是 ， 一 名 车 手 在 任何 比赛 中 ， 最 多 能 够 得 到 48 个 积分 。 表 15-13 是 2011 赛季 
前 35 名 车 手 的 数据 (NASCAR website，2011 年 2 月 28 日 )。 


表 15-13 2011 赛季 NASCAR 成 绩 


车 手 积分 ”首发 获胜 前 5 前 10 奖金 (美元 ) 车 手 积分 ”首发 获胜 前 5 前 10 奖金 (美元 ) 
Tony Stewart 2403 1 5 9 19 6529870 || Marcos Ambrose 936 0 1 5 12 ”4750390 
Carl Edwards 2403 3 1 19 26 8485990 || Jef Burton 935 0 0 2 5 3807780 
Kevin Harvick 2345 0 4 9 19 6197140 || Juan Montoya 932 2 0 9 8 5020780 
Matt Kenseth 233 。3 3 12 20 6183580 || Mark Martin 930 2 0 2 -WW 3890910 
Brad Keselowski 2319” 1 3 10 14 5087740 || David Ragan 906 2 l 4 8 4203660 
Jimmie Johnson 2 304 0 2 14 21 6296 360 || Joey Logano 902 2 0 4 6 3.856 010 
Dale Eamhardt Jr. 2290 |1 0 4 12 4163690 || Brian Vickers 846 0 0 3 7 4301880 
Jeff Gordon 2 .097 出 : 18 5912830 || Ragan Smith 820 0 l 2 5 4579860 
Denny Hamlin 2284 0 1 5 14 5401190 || Jamie McMurray 795 1 0 2 4 #4794770 
Ryan Newman 2284 —3 1 9 17 5303.020 || David Reutimann 757 1 0 ] 3 -4374770 
Kurt Busch 2262 3 2 8 I6 5936470 || Boddy Labonte 670 0 0 1 2 4505650 
Kyle Busch 2246 1 4 14 18 6161020 || David Gilliland 572 0 0 1 2 3878390 
Clint Bowyer 1047 0 1 4 16 5633950 || Casey Mears 541 0 0 0 0 2838320 
Kasey Kakine 1041 2 1 8 15 4775160 || Dave Blaney 508 0 0 1 1 ‘3220 
A.J. Allmendinger 1013 0 0 1 10 4825 560 | Andy Lally 398 0 0 0 0 2868220 
Greg Biffle 997 3 0 1 10 4318050 || Robby Gordon 268 0 0 0 0 2271890 
Paul Menard 947 0 I 4 8 3853690 || J.]. Yeley 192 0 0 0 0 2559500 
Martin Truex Jr. 937 1 0 3 12 3955560 
管理 报告 


1. 假设 你 想 使 用 车 手 获得 首发 的 次 数 、 获 胜 的 次 数 、 进 入 前 五 名 的 次 数 和 进入 前 十 名 的 次 数 这 四 个 变量 中 的 
一 个 来 预测 该 车 手 挣 得 的 奖金 〈 美 元 ) 。 这 四 个 变量 中 的 哪 一 个 能 给 出 最 佳 的 预测 值 ? 
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ww i 
Te 一 ls 


第 15 章 多 元 回归 391 


2. 建立 一 个 估计 的 回归 方程 ， 使 该 方程 在 车 手 获得 首发 的 次 数 、 获 胜 的 次 数 、 进 入 前 五 名 的 次 数 和 进入 前 十 
名 的 次 数 已 知 时 ， 能 用 来 预测 该 车 手 挣 得 的 奖金 (美元 )。 对 每 一 个 自 变 量 做 单个 的 显著 性 检验 。 讨 论 你 的 发 现 
和 结论 。 

3. 建立 两 个 新 的 自 变 量 ; Top2-5 和 Top6-10(Top2-5 表示 车 手 进 入 第 2 位 至 第 5 位 的 次 数 ，Top6-10 表示 车 手 进 入 第 6 
位 至 第 10 位 的 次 数 )。 建 立 一 个 估计 的 回归 方程 ， 使 该 方程 在 车 手 获 得 首发 的 次 数 、 获 胜 的 次 数 、Top2-5 和 Top6-10 已 
知 时 ， 能 用 来 预测 该 车 手 挣 得 的 奖金 (美元 )。 对 每 一 个 自 变 量 做 单个 的 显著 性 检验 。 讨 论 你 的 发 现 和 结论 。 

4. 根据 你 的 分 析 结果 ， 为 了 预测 车 手 的 奖金 〈《 美 元 ) ， 你 推荐 哪个 估计 的 回归 方程 ? 对 该 方程 的 估计 的 回归 
系数 作出 解释 。 





案例 15-3 ”找到 最 合适 的 汽车 价值 ”” 


当 你 试图 决定 购买 一 辆 汽车 时 ， 决 定 汽车 实际 价值 的 并 不 一 定 是 你 在 初次 购买 时 花 了 多 少 钱 。 相 反 ， 性 能 可 
靠 的 并 且 不 用 花 很 多 钱 就 能 买 到 的 汽车 ， 往 往 代 表 了 最 合适 的 价值 。 但 是 ,不 管 汽车 的 性 能 多 么 可 靠 , 或 者 购买 
汽车 的 价钱 多 么 便宜 ， 它 还 必须 要 有 很 好 的 操控 能 力 。 

为 了 度量 汽车 的 价值 , 《消费 者 报告 》 杂 志 提 出 了 一 个 被 称 为 价值 分 数 的 统计 量 。 价 值 分 数 是 根据 汽车 车 主 
五 年 的 费用 、 汽 车 道路 综合 测试 分 数 以 及 预测 可 靠 性 等 级 得 出 的 。 车 主 五 年 的 费用 是 该 车 在 第 一 个 五 年 所 产生 的 
各 项 支出 ， 包 括 折旧 ， 燃 油 ， 维 修 及 保养 ， 等 等 6 根据 一 辆 车 每 年 行驶 12000 英里 的 全 国平 均 水 平 ， 得 到 每 英里 
的 平均 费用 作为 车 主 五 年 费用 的 测度 。 道 路 测试 分 数 是 超过 50 次 测试 和 评估 的 结果 ， 并 且 以 100 分 为 满分 来 计算 
成 绩 ， 较 高 的 分 数 表 示 有 和 较 好 的 性 能 、 和 舒适 性 、 便 利 性 及 燃油 经 济 性 。 由 《消费 者 报告 》 杂 志 所 实施 的 道路 测 
试 ， 得 到 的 最 高 分 是 一 辆 雷克萨斯 LS 460L， 为 99 分 。 预 测 可 靠 性 等 级 (1= 差 ， 2= 一般, 3= 好 ，4= 很 好 ， 
5 = 优秀 ) 是 基于 Consumer Reports” Annual Auto Survey 的 数据 得 到 的 。 

价值 分 数 为 1.0 的 汽车 被 认为 是 “平均 值 ” 。 价 值 分 数 为 2.0 的 汽车 被 认为 是 比价 值 分 数 为 1,0 的 汽车 好 两 倍 
的 汽车 ; 价值 分 数 为 0.5 的 汽车 被 认为 只 有 价值 分 数 为 1.0 的 汽车 的 一 半 好 ; 等 等 。 在 本 书 所 附 光盘 名 为 CarVal- 
uede 的 文件 中 有 三 种 规格 轿车 (13 辆 小 型 轿车 、20 辆 家 庭 轿车 和 21 辆 高 档 轿 车 ) 的 数据 ， 包括 每 辆 被 测试 轿车 
的 价格 (美元) (Consumer Reports website，2012 年 4 月 18 日 )。 由 于 加 入 了 汽车 规格 的 影响 ， 考 虑 一 个 三 水 平 
(小 型 轿车 、 家 庭 轿 车 和 高 档 轿 车 ) 的 分 类 变量 ， 我 们 需要 利用 两 个 虚拟 变量 如 下 : 

家 庭 轿 车 = 本 
0 ,否则 

1 ,如 果 是 高 档 轿 车 
0 ,和 否则 





高 档 轿车 = { 
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1， 以 “费用 /英里 ”为 应 变量 ,以 “家 庭 轿 车 ”和 “中 高 档 轿 车 ”为 自 变 量 ， 建立 一 个 合计 的 回归 方程 。 讨 
论 你 的 发 现 。 

2. 以 “价值 分 数 ” 为 应 变量 ， 以 “费用 /英里 ”“ 道 路 测试 分 ”“ 预测 可 千 性 等 级 ”“ 家庭 轿车 ”和 “中 高 档 
轿车 ”为 自 变 量 , 建立 一 个 估计 的 回归 方程 。 

3. 在 a=0.05 的 显著 性 水 平 下 ， 从 在 (2) 建立 的 估计 的 回归 方程 中 ， 删 除 不 显著 的 自 变 量 。 删 除 不 显著 的 
自 变 量 后 ， 建 立 一 个 新 的 估计 的 回归 方程 。 

4. 假设 有 人 主张 :“ 最 小 的 汽车 比较 大 的 汽车 提供 了 更 好 的 价值 ” 。 对 于 本 例 中 的 数据 ， 变 量 “Small Sedans” 
| 变量 “Upseale Sedans” 代 表 较 大 型 的 汽车 。 你 的 分 析 支 持 这 种 说 法 吗 ? 

5. 利用 回归 分 析 建 立 一 个 估计 的 回归 方程 ,使 该 方程 在 道路 测试 分 已 知 时 ， 能 用 来 预测 该 车 的 价值 分 数 。 
6. 利用 回归 分 析 建 立 一 个 估计 的 回归 方程 ， 使 该 方程 在 预测 的 可 靠 性 等 级 已 知 时 ， 能 用 来 预测 该 车 的 价值 分 数 。 
7. 从 你 的 分 析 中 ， 你 可 以 得 出 什么 结论 ? 





16. ] 
16. 2 
16..3 
16. 4 
16.5 
16.6 


实践 中 的 统计 : Monsanto 公司 





一 般 线性 模型 

确定 什么 时 候 增 加 或 者 删除 变量 
大 型 问题 的 分 析 

变量 选择 方法 

实验 设计 的 多 元 回归 方法 


自 相 关 性 和 杜 宾 - 瓦特 森 检验 
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实践 中 的 统计 
Monsanto 公 富 | 


密苏里 州 ， 圣 路 易 斯 


Monsanto 公司 始 建 于 1901 年 ， 当 时 约翰 硅 尼 
(John F. Queeney) 依靠 500 美元 起 家 ， 在 密西西比 河 
边 一 座 布 满 尘土 的 破旧 仓库 ,开始 生产 糖精 。 如 今 ， 
该 公司 已 经 成 为 美国 最 大 的 化 学 公司 之 一 ， 生 产 工 000 
多 种 各 类 产品 ， 从 工业 化 学 制品 到 用 于 铺设 现代 运动 
场所 需要 的 人 工人 台 成 地 面 ， 应 有 尽 有 。Monsanto 公司 
也 是 一 家 世界 性 的 跨国 公司 ， 在 65 个 国家 拥有 生产 设 
备 、 实 验 室 、 技 术 中 心 和 营销 机 构 。 

Monsanto 公司 的 营养 化 学 部 生产 和 销售 一 种 蛋 氨 
酸 补 充 剂 ， 这 一 产品 广泛 用 于 肉鸡 、 猪 、 牛 等 家 畜 的 
饲料 。 由 于 肉鸡 养殖 业 产 量 大 且 利 润 率 低 ， 因 此 ， 需 
要 营养 价值 尽 可 能 高 的 有 成 本 效益 的 肉鸡 饲料 。 最 优 
的 饲料 成 分 将 可 以 满足 ， 在 一 个 给 定 的 咀 食 量 上 ， 使 
得 幼 鸡 兼 具 快 速 的 生长 率 和 最 终 的 高 标准 体重 。Mon- 
santo 公司 的 化 学 工业 部 门 与 饲养 者 们 紧密 合作 ， 以 生 


产 出 最 优 的 肉鸡 饲料 。 该 公司 最 终 的 成 功 取决 于 他 们 


发 现 了 肉鸡 饲料 的 最 优 配方 ， 使 得 肉鸡 的 饲养 成 本 与 
猪 、 牛 等 其 他 家 畜 的 饲养 成 本 相 比 ， 保 持 在 更 低 的 水 
二。 

Monsanto 公司 运用 回归 分 析 方 法 模拟 了 肉鸡 的 体 


重 y 与 饲料 中 加 入 的 蛋氨酸 数量 x 之 间 的 关系 。 最 初 
建立 的 估计 的 简单 线性 回归 方程 如 下 : 

F = 0.21 + 0.42x 
这 一 估计 的 回归 方程 经 检验 在 统计 上 昨 显 著 的 ,但 是 
残 差分 析 显 示 ， 曲 线 关 系 也 许 是 描述 肉鸡 体重 与 饲料 
中 加 入 的 蛋氨酸 数量 之 间 关 又 的 一 个 更 适宜 的 模型 。 

Monsanto 公司 经 过 进一步 的 研究 发 现 ， 虽 然 少 量 
的 蛋氨酸 可 以 提高 肉鸡 的 体重 ， 但 是 当 其 含量 达到 某 
一 水 平 后 ， 继 续 增 加 蛋氨酸 的 含量 对 肉鸡 体重 增长 的 
作用 就 变 得 微 平 其 微 了 。 事 实 上 ， 当 蛋氨酸 含量 的 增 
加 超出 了 营养 需求 量 时 ， 肉 鸡 的 体重 甚至 会 下 降 。 下 
面 估计 的 多 元 回归 方程 用 于 模拟 肉鸡 体重 与 饲料 中 加 
入 的 蛋氨酸 数量 之 间 的 曲线 关系 。 

# =—1.89 +1.32x -0.506x’ 

利用 这 一 回归 结果 ，Monsanto 公司 能 够 确定 在 肉 
鸡 饲 料 中 需要 添加 蛋氨酸 的 最 优 数 量 。 

在 本 章 中 ,我 们 将 通过 对 诸如 Monsanto 公司 建 模 
的 例子 ， 扩 展 回 归 分 析 的 讨论 至 非 线性 模型 。 此 外 ， 
我 们 还 要 介绍 一 系列 工具 ， 这些 工具 有 助 于 决定 最 佳 
回归 方程 中 应 该 包含 哪些 自 变 量 。 


建立 模型 是 一 个 复杂 的 过 程 ， 经 过 这 一 过 程 ， 我 们 就 能 得 到 描述 应 变量 与 一 个 或 一 个 以 上 自 变量 之 间 关 系 的 
估计 的 回归 方程 。 建 模 过 程 主要 有 两 方面 的 问题 ， 一 是 找到 一 个 合适 的 描述 变量 之 间 关 系 的 函数 形式 ， 二 是 选择 
模型 应 包含 的 自 变量 。 在 第 16. 1 入 中 ， 我 们 将 通过 引入 一 般 线 性 模型 的 概念 ， 确 立 建 模 过 程 的 基本 框架 。 在 第 
16. 2 节 中 ， 我 们 将 介绍 什么 时 候 增 加 或 者 删除 目 变量 的 一 般 方 法 ， 为 比较 复杂 的 基本 计算 步骤 提供 了 依据 。 在 第 
16. 3 节 中 ， 我 们 将 考虑 一 个 涉及 8 个 自 变 量 和 25 组 观测 值 的 大 型 回归 问题 。 在 第 16.4 节 中 ， 这 个 大 型 问题 将 用 
于 说 明 变 量 选 择 过 程 ， 包 括 逐 步 回归 过 程 、 前 向 选择 过 程 、 后 向 消 元 过 程 和 最 佳 子 集 回归 过 程 等 。 在 第 16.5 节 
中 ， 我 们 将 说 明 多 元 回归 分 析 可 以 提供 处 理 实验 设计 问题 的 另 一 种 方法 。 在 第 16.6 节 中 ， 我 们 将 说 明 如 何 利用 村 
宾 - 瓦特 森 〈Durbin-Watson) 检验 来 检测 序列 相关 或 者 自 相 关 。 


16. 1 一 般 线性 模型 


假设 我 们 采集 了 一 个 应 变量 y 和 不 个 目 变 量 2 ，%,， 


… ,xt 的 观测 数据 。 我 们 的 目的 是 利用 这 些 数据 ， 建 立 


一 个 估计 的 回归 方程 ， 这 个 方程 给 出 了 应 变量 和 自 变 量 之 间 一 个 最 佳 的 关系 。 作 为 建立 自 变 量 之 间 更 复杂 关系 的 
总 体 框架 ， 我 们 介绍 含有 p 个 自 变量 的 一 般 线 性 模型 ( general linear model) 的 概念 。 


名 ” 作 者 感谢 Monsanto 公司 营养 化 学 部 的 两 位 高 级 研究 专家 James R. Ryland 和 Robert M. Schisla 先生 ， 他 们 为 “实践 中 的 统计 ”提供 了 
本 
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在 式 (16-1) 中 ， 每 一 个 自 变 量 s 〈 这 里 ,jiE= 瑟 2 一 了) 都 是 x ，x,,，…，% (我 们 已 经 采集 了 这 些 变量 
的 数据 ) 的 函数 。“ 在 某 种 情形 下 ， 每 一 个 自 变 量 = 可 能 仅仅 是 一 个 变量 x 的 函数 。 最 简单 的 情形 是 我 们 仅仅 对 一 
个 变量 x 采集 数据 ， 并 且 希 望 利用 直线 关系 去 估计 yy。 在 这 种 情形 下 ，z, =x,， 式 (16-1) 变 为 
y=B, +Bixi +e (16-2) 
式 (16-2) 恰好 是 第 14 章 中 介绍 的 简单 线性 回归 模型 ,不同 之 处 是 将 第 14 章 模 型 的 自 变 量 * 换 成 x,。 在 统计 建 
模 文 献 中 ， 这 个 模型 被 称 为 具有 一 个 预测 变量 的 简单 一 阶 模型 。 


16. 1. 1 模拟 曲线 关系 

我 们 能 用 式 (16-1) 模拟 形式 更 复杂 的 关系 。 为 了 说 明 如 何 做 到 这 一 点 ， 我 们 考虑 生产 工业 天 平和 
实验 室 设备 的 Reynolds 公司 所 面 对 的 问题 。Reynolds 公司 的 管理 人 员 和 希望 对 公司 销售 人 员工 作 年 限 的 长 
短 和 电子 实验 室 天 平 的 销售 数量 之 间 的 关系 进行 调研 。 表 16-1 给 出 了 15 名 随机 抽 选 的 销售 人 员 近 期 天 
平 的 销售 数量 和 每 一 名 销售 人 员 被 公司 雇用 的 月 数 。 图 16-1 给 出 了 这 些 数据 的 散 点 图 。 散 点 图 表明 ， 在 
被 公司 雇用 时 间 的 长 短 和 销售 数量 之 间 ， 可 能 存在 一 个 曲线 关系 。 在 考虑 如 何 为 Reynolds 公司 建立 一 个 
曲线 关系 之 前 ， 让 我 们 首先 考虑 在 图 16-2 中 给 出 的 与 简单 一 阶 模型 对 应 的 Minitab 输出 ; 估计 的 回归 方 
程 是 


Dame 
人 2 


Sales=111 +2.38Months 
式 中 ，Sales 代表 电子 实验 室 天 平 的 销售 数量 ; Months 代表 销售 人 员 被 公司 雇用 的 月 数 。 
表 16-1 Reynolds 公司 例子 的 数据 





销售 人 员 被 公司 雇用 的 月 数 天 平 的 销售 数量 
41 275 i 
106 296 
76 317 
10 376 300 
22 162 2 
12 150 
85 367 归 “200 
111 308 贞 
40 189 
51 235 
9 83 
& 和 0 Wr 0 BOT To 1 
部 5 被 雇用 的 月 数 
-:: i 16-1 ”Reynolds 公司 例子 的 散 点 图 


图 16-3 是 对 应 的 标准 化 残 差 图 。 尽 管 计算 机 输出 表明 : 这 个 线性 关系 是 显著 的 (p- 值 =0.000)， 并 目 线性 关 
系 解释 了 销售 数量 中 的 大 部 分 变异 性 (R -5g=78.1% )， 然 而 标准 化 残 差 图 启发 我 们 ,仍然 需要 一 个 曲线 关系 。 
为 了 说 明 这 是 一 个 曲线 关系 ， 我 们 令 式 (16-1) 中 的 a =%, 亏 =21， 于 是 得 到 模型 
y=B, +Bx +Bxi+e (16-3) 
这 个 模型 被 称 为 具有 一 个 预测 变量 的 二 阶 模型 。 为 了 建立 与 这 个 二 阶 模 型 相对 应 的 估计 的 回归 方程 ， 我们 使 
用 的 统计 软件 包 不 但 需要 表 16-1 中 的 原始 数据 ， 而 且 也 需要 增加 第 二 个 自 变量 所 对 应 的 数据 ， 即 销售 人 员 被 公司 


加 如 果 你 能 写 出 形 如 式 (16-1) 的 回归 模型 ， 那 么 就 能 应 用 在 第 15 章 中 叙述 的 标准 多 元 回归 过 程 。 
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雇用 月 数 的 平方 。 在 图 16-4 中 ， 我 们 给 出 了 对 应 二 阶 模型 的 Minitab 输出 ; 估计 的 回归 方程 是 
Sales = 45. 3 + 6. 34Months - 0. 0345 MonthsSq 
式 中 ，MonthsSq 2 代表 销售 人 员 被 公司 雇用 月 数 的 平方 。 


The regression equation is 
Sales = 111 + 2.38 Months 


Predictor Coef SE Coef 
Constant 于 于 入 改作 2 63 
Months 2.3768 0.3489 


S = 49,.5158  R-8g = 78;1% 人 下 RSG(aaGJ 让 ES 764% 


Analysis of Variance 


SOURCE DF SS MS F p 
Regression 1 T13783 3783 4614 10500 
Residual Error 13 31874 2452 

Total 14 145657 





图 16-2 Reynolds 公司 例子 : 一 阶 模型 的 Minitab 输出 





‘< 


150 200 250 300 350 
图 16-3 Reynolds 公司 例子 : 一 阶 模型 的 标准 化 残 差 图 


The regression equation is 
Sales = 45.3 + 6.34 Months - 0.0345 MonthsSa 


Predictor Coef SE Coef rN Dp 
Constant A :3S 22.77Fi 99 0.070 
Months 6.345 1.058 6.00 0.000 
MonthsSsa -0.034486 0.008948 -3.85 0;002 


S= 34,4528 R-Sqg = 90;:2%  R-Sg(adj) = 88.6% 


Analysis of Variance 


SOURCE DF SS MS F p 
Regression 2 131413 65707 55.36 0.000 
Residual Error 12 14244 1187 

Total 14 145657 


图 16-4 Reynolds 公司 例子 : 二 阶 模型 的 Minitab 输出 





加 将 Months 的 数值 平方 ， 就 能 得 到 自 变量 MonthsSg 的 数据 。 
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图 16-5 是 对 应 的 标准 化 残 差 图 。 这 张 图 表明 : 前 面 图 16-3 中 的 曲线 模式 的 图 形 已 经 被 消除 。 在 a =0.05 的 
显著 性 水 平 下 ， 计 算 机 输出 表明 ， 模 型 在 总 
体 上 是 显著 的 (F 检验 的 p- 值 是 0.000); 12 
我 们 还 注意 到 ， 对 应 于 自 变量 MonthsSq 的 1 
检验 的 p- 值 (p- 值 =0.002) 小 于 0.05， 因 
此 我 们 的 结论 是 ， 在 含有 自 变量 Months 的 0 
模型 中 ， 增 加 的 自 变量 MonthsSq 是 显著 的 。 将 
由 于 R-Sq (adj) =88.6% ， 由 这 个 估计 的 回 * 
归 方 程 给 出 的 拟 合 我 们 应 该 是 满意 的 。 不 过 “一 
更 重要 的 是 我 们 看 到 了 ， 在 回归 分 析 中 运用 
曲线 关系 是 多 么 容易 。 

显然 ， 有 许多 类 型 的 关系 能 用 式 (16-1) WW 150 200 250 300 350 
模拟 。 我 们 一 直 使 用 的 回归 方法 不 一 定局 限于 16-5 ”Reynolds 公司 例子 : 二 阶 模型 的 标准 化 残 差 图 
线性 关系 或 直线 关系 。 在 多 元 回归 分 析 中 ， 线 性 这 个 词 在 术语 “一 般 线 性 模型 ”中 指 的 仅仅 是 这 样 一 个 事实 : 
6,，B, ，…， 有 ,全 是 一 次 宕 ， 这 并 不 意味 着 y 和 这 些 x, 之 间 存 在 着 线性 关系 。 实 际 上 ， 在 这 一 节 中 我 们 已 经 看 到 
了 如 何 利用 式 (16-1) 模拟 曲线 关系 的 一 个 例子 。 


16. 1.2 交互 作用 


如 果 原 始 数 据 集 由 应 变量 y 和 两 个 自 变 量 x, ，x, 的 观测 值 组 成 ， 在 一 般 线 性 模型 式 (16-1) 中 , 设 z =x， 

z 二 %，Zz3 三 X11，%4 三 2 和 zs =xi%x,， 我 们 就 能 建立 一 个 含有 两 个 预测 变量 的 二 阶 模型 。 我 们 得 到 的 模型 是 
y = Bo +Bix, + Bx, + psxi + Bx +t+Bx% +e (16-4) 

在 这 个 二 阶 模 型 中 ， 为 了 说 明 两 个 变量 共同 作用 产生 的 潜在 影响 ,我们 增加 了 一 个 变量 z; = x,x,。 这 种 类 型 
的 影响 被 称 为 交互 作用 (interaction ) 。 

为 了 解释 交互 作用 的 概念 和 交互 作用 意味 着 什么 ， 让 我 们 考察 一 下 Tyler Personal Care 为 他 的 一 种 新 的 
洗 发 产品 进行 的 回归 研究 。 泰 勒 (Tyler) 认为 ， 对 销售 量 起 最 大 影响 的 两 个 因素 是 单位 销售 价格 和 广告 费 
用 。 为 了 研究 这 两 个 变量 对 销售 量 的 影响 ,在 24 家 做 试验 的 商店 中 ， 与 价格 为 2.00 美元 、2. 50 美元 和 
3. 00 美元 相对 应 的 广告 费用 分 别 为 50000 美元 和 100 000 美元 。 我 们 观测 到 的 销售 数量 (单位 ，1 000 瓶 ) 
记录 在 表 16-2 中 。 





表 16-2 Tyler Personal Care 例子 的 数据 
价格 (美元 ) 广告 费用 〈1 000 美元 ) ” 销售 数量 (1000 瓶 ) 价格 (美元 ) 广告 费用 (1 000 美元 ) ”销售 数量 (1 000 瓶 ) 


2.00 50 478 2. 00 100 810 
2.50 50 373 2.50 100 653 
3. 00 50 335 3. 00 100 345 
2.00 50 473 2.00 100 832 
2.50 50 358 2.50 100 641 
3.00 50 329 ; 3. 00 100 372 
2.00 50 456 2.00 100 800 
2.50 50 360 2.50 100 620 
3.00 50 322 3. 00 100 390 
2.00 50 437 2. 00 100 790 
2. 50 50 365 2.50 100 670 


3. 00 50 342 3. 00 100 393 


第 16 章 回归 分 析 : 建立 模型 397 


表 16-3 是 这 些 数据 的 汇总 。 注 意 ， 对 应 销售 价格 为 2. 00 美元 、 广 告 费 用 为 50 000 美元 的 样本 平均 销售 数量 
是 461 000 瓶 ; 对 应 销售 价格 为 2. 00 美元 、 广 告 费用 为 100 000 美元 的 样本 平均 销售 数量 是 808 000 瓶 。 因 此 ， 当 
价格 为 2. 00 美元 保持 不 变 时 ， 广 告 费 用 分 别 为 50 000 美元 和 100 000 美元 ， 这 时 候 的 样本 平均 销售 数量 之 差 是 
808 000 -461 000 = 347 000 瓶 。 当 产品 的 价格 为 2.50 美元 时 ， 样 本 平均 销售 数量 之 差 是 646 000 - 364 000 = 
282 000 瓶 。 最 后 ， 当 产品 的 价格 为 3.00 美元 时 ， 样 本 平均 销售 数量 之 差 是 375 000 - 332 000 = 43 000 瓶 。 显 然 ， 
广告 费用 分 别 为 50 000, 美 元 和 100 000 美元 时 ， 样 本 平均 销售 数量 之 差 依赖 于 产品 的 销售 价格 。 换 句 话 说 ， 当 销 
售 价格 较 高 时 ， 增 加 广告 费用 的 影响 将 要 减少 。 上 述 观 测 结果 提供 了 销售 价格 和 广告 费用 这 两 个 变量 之 间 交 互 作 
用 的 证 据 。 


表 16-3 Tyler Personal Care 例子 的 样本 平均 销售 数量 (1 000 瓶 ) 


价格 (美元 ) 
2. 00 2. 50 3. 00 
广告 费用 (美元 ) 50 000 461 364 332 
100 000 8082 646 375 


四 当 价格 为 2.00 美元 和 广告 费用 为 100 000 美元 时 ， 平 均 销 信教 量 为 808 000 着 。 


为 了 给 出 交互 作用 的 另 一 个 观点 ， 图 16-6 表示 了 6 种 不 同 的 销售 价格 与 广告 费用 组 合 的 样本 平均 销售 数量 。 
该 图 还 表明 了 广告 费用 对 样本 平均 销售 数量 的 影响 
依赖 于 产品 的 价格 水 平 ， 这 让 我 们 再 一 次 看 到 了 交 
互 作用 的 影响 。 当 两 个 变量 之 间 存 在 交互 作用 时 ， 
我 们 不 可 能 独立 于 其 他 变量 之 外 ， 单 独 地 考察 一 个 BO 
变量 对 响应 变量 y 的 影响 。 换 句 话说 ， 只 有 当 我 们 
考虑 两 个 变量 对 响应 变量 的 联合 影响 时 ， 才 能 得 出 





有 意义 的 结论 。 3 
为 了 说 明 交 互 作用 的 影响 ,我 们 将 利用 下 面 的 
回归 模型。 | | 
y =pBo +Bix, +Bx; +Bsxixs +e (16-5) ES 600 rN 
式 中 ，7 为 销售 数量 (1 000 瓶 ); x 为 销售 价格 这 
(美元 ) ;为 广告 费用 〈1 000 美元 )。 要 平 的 杀人 
注意 , 式 (16-5) 反映 出 Tyler 相信 销售 数量 线 关 so0 | 646-364=282 
性 地 依赖 销售 价格 和 广告 费用 (由 Bix, 和 Bsx, 两 项 守 1 
说 明 ) ， 并 且 两 个 变量 之 间 存 在 交互 作用 ( 由 Bsxix%， S00 元 
项 说 明 )。 400 i 
为 了 建立 估计 的 回归 方程 ， 我们 利用 含有 3 个 9 平均 销售 
自 变 量 (za ,zz 和 z) 的 一 般 线 性 模型 。 RD | 有 
y =p +Biz +Bz, + Bz +e (16-6) ST 
式 中 , 有 取 和 代 zis 羽 取 代 %; 取代 i;。 
图 16-7 是 对 应 于 Tyler Personal Care 例子 的 交互 SG A 和 
作用 模型 的 Minitab 输出 。 得 到 估计 的 回归 方程 是 销售 价格 (美元 ) 


Sales = —276 +175Price +19. 7AdvExp — 6. 08PriceAdv 图 16-6 样本 平均 销售 数量 是 销售 价格 和 广告 费用 的 函数 
式 中 ，Sales 代表 销售 数量 (1 000 瓶 ); Price 代 
表 销 售 价 格 (美元 ); AdvExp 代表 广告 费用 (1 000 美元 ) ; PriceAdv “代表 交互 作用 项 (Price x AdvExp) 。 


日 ”将 Price 的 每 一 个 数值 与 对 应 的 AdvExp 的 数值 相 乘 ， 就 能 得 到 自 变量 PriceAdv 的 数据 。 
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The regression equation is 
Sales = - 276 + 175 Price + 1419.7 AdvExpen —. 6.08 PriceaAdy 


Predictor Coef SE Coef jb p 
Constant -275.8 112\.8 -2C44 0.024 
Price 175,.00 44.55 3.93 0.00. 
Adver 19.680 1.427 yy OO 
PriceAdy - -6.0800” ,0.5635 ~-10.79 ,0.000 


S= 28.1739 '' R-Sg =- 97:8%' R-Sg{tadij) 三 97.5% 
Analysis of Variance 

SOURCE DF SS MS 下 
Regression 3 709316 236439 297.87 0.000 


Residual] Error 20 15875 794 
Total 23 “T2519 





图 16-7 Tyler Personal Care 例子 的 Minitab 输出 


因为 模型 在 总 体 上 是 显著 的 〈8 检验 的 p- 值 是 0.000)， 对 应 于 交互 作用 项 PrieeAdv 的 + 检验 的 p- 值 是 0.000， 
我 们 的 结论 是 : 在 已 知 产品 销售 价格 和 广告 费用 的 线性 影响 下， 交互 作用 是 显著 的 。 于 是 回归 结果 表明 ， 广告 费 
用 对 销售 数量 的 影响 依赖 于 产品 销售 价格 。 


16. 1. 3 ”涉及 应 变量 的 变换 


在 说 明 如 何 利用 一 般 线性 模型 模拟 自 变 量 和 应 变量 之 间 各 种 可 能 存在 的 关系 时 ,我 们 把 注意 力 集 中 到 包含 一 
个 或 一 个 以 上 自 变量 的 变换 上 。 涉 及 应 变量 y 的 变换 问题 往往 是 值得 考虑 的 。 为 了 解释 什么 时 候 应 该 对 应 变量 进 
行 变换 ， 我 们 考虑 表 16-4 中 有 关 12 辆 汽车 的 英里 /加 仑 额定 值 和 重量 的 数据 。 散 点 图 16-8 表明 了 在 这 两 个 变量 
之 间 存 在 一 个 负 的 线性 关系 。 所 以 我 们 利用 一 个 简单 的 一 阶 模型 把 这 两 个 变量 联系 起 来 。 图 16-9 是 Minitab 输出 ; 
得 到 估计 的 回归 方程 是 
MPG =56. 1 -0. 01] 6Weight 
式 中 ，MPG 为 英里 /加 仑 额定 值 ; Weight 为 汽车 的 重量 ( 磅 )。 


表 16-4 12 辆 汽车 的 英里 /加 仑 额定 值 和 重量 


汽车 重量 ( 磅 ) 英里 /加 仓 汽车 重量 ( 磅 ) ”英里 /加 仑 
2289 28.7 2657 23.9 
2 13 129. 2 2 106 30.5 
2 180 34. 2 3 226 18. 1 
2.448 27.9 3213 19.5 
2 026 33.3 3 607 14.3 
2702 26. 4 2 888 20.9 


模型 是 显著 的 《F 检验 的 p- 值 是 0.000)， 并 上 且 数据 拟 合 得 也 非常 好 (R-Sq=93.5%)。 然 而 ; 我 们 注意 到 在 
图 16-9 中 ,第 3 个 观测 值 被 识别 出 有 一 个 大 的 标准 化 残 差 。 

图 16-10 是 对 应 于 一 阶 模型 的 标准 化 残 差 图 。 如 果 关于 误差 项 的 假设 全 都 成 立 ; 我 们 期 望 看 到 的 应 是 一 条 水 
平 的 带 状 图 形 ， 然 而 我 们 观察 到 的 图 形 看 起 来 不 像 是 这 种 形状 。 实 际 上 ， 残 差 的 变异 性 看 来 随 着 7 值 的 增加 而 增 
加 。 换 句 话说 ， 我 们 看 到 的 是 槐 形 图 ， 而 这 种 图 形 在 第 14 章 和 第 15 章 被 认为 是 存在 非常 数 方差 的 征兆 。 当 显著 
性 检验 的 基本 假设 看 起 来 没有 被 满足 时 ， 我 们 不 能 证 明 : 得 到 的 有 关 估 计 的 回归 方程 统计 显著 性 的 任何 结论 都 是 
合理 的 。 
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图 16-8 英里 /加 仑 问题 的 散 点 图 


The regression equation is 
MPG = 56.1 - 0.0116 Weight 





Predictor Coef SE Coef 下 
Constarnt 56 .096 2 S82 24..712 0.000 
Weight -0.0116436 0.0009677 -12303 0.000 


S = 1.67053 ”及 -Sa = 93.5% R=-Sgq(adj) = 92.9% 
Analysis of Variance 


SOURCE DF SS MS F p 
Regression 1 A403598 40338 144:76 1.000 
Residual Error 10 27.91 2.79 

Total LS 


Unusual Observations 
Obs “Weight MPG Fit SE Fit Residual St Resid 
3 2t80 34.280 30:733 0.644 3 .487 2.26R 


R denotes an observation with a large standardized residual. 


16-9 ”英里 /加 仑 问题 的 Minitab 输出 


非常 数 方差 问题 通常 能 够 被 修正 ， 修 正 的 方法 是 对 应 变量 
做 一 个 不 同 的 比例 变换 。 例 如 ， 用 应 变量 的 对 数 来 代替 原 

来 的 应 变量 ,这 样 做 的 效果 是 压缩 了 应 变量 的 数值 ， 从 而 。 
达到 减少 非常 数 方差 影响 的 目的 。 大 部 分 统计 软件 包 都 具 多 

有 对 数 变换 的 功能 ， 或 者 以 10 为 底 (常用 对 数 ) 进行 对 数 汰 00 
变换 ， 或 者 以 e=2.718 28… 为 底 ( 自然 对 数 ) 进行 对 数 变 下 

换 。 我 们 对 英里 /加 仓 问题 的 原始 数据 进行 自然 对 数 变换 ， -1 


并 且 建 立 英里 /加 仑 的 自然 对 数 关 于 汽车 重量 的 估计 的 回归 


5 





方程 。 我 们 用 英里 /加 仑 的 自然 对 数 作 应 变量 ， 在 输出 中 的 Se 17.5 21.0 pa 28.0 31.5 
标记 为 LogeMPG ， 得 到 的 回归 结果 在 图 16-11 中 ; 图 16-12 图 16-10 英里 /加 仑 问题 的 标准 化 残 差 图 
是 对 应 的 标准 化 残 差 图 。 


我 们 注意 一 下 图 16-12 中 的 标准 化 残 差 图 ， 现 在 我 们 已 经 看 不 到 槐 形 图 了 。 此 外 ， 没 有 一 个 观测 值 被 识别 出 


400 商务 与 经 济 统计 


有 一 个 大 的 标准 化 残 差 。 用 英里 /加 仓 的 自然 对 数 作 应 变量 的 模型 在 统计 上 是 显著 的 ， 并 且 对 观测 数据 给 出 了 一 
个 非常 好 的 拟 合 。 因 此 ， 我 们 愿意 推荐 估计 的 回归 方程 是 
LogeMPG =4. 52 -0. 000 501 Weight 


The regression equation is 
LogeMPG = 4.52 -0.000501 Weight 


Predictor Coef SE Coef 守 了 
Constant 4.52423 0.09932 45.55 0.000 
Weight -0.00050110 0.00003722 -13,46 0.000 


8'= 0.0642547 R-S9 = 94.8% R-Sqladj) = 94.2% 
Analysis of Variance 


SOURCE DE SS MS F Bp 
Regression 1 0.74822 0. 174822 T8122 (0.000 
Residual Error 10 0.04129 0 00413 

Total 1 后 人 0 





图 16-11 英里 /加 仑 问题 ， 对 数 变 换 的 MINITAB 输出 





2.70 2.85 3.00 $1 3.30 3.45 


图 16-12 ”英里 /加 仓 问题 : 对 数 变 换 的 标准 化 残 差 图 
对 于 一 辆 重量 为 2500 磅 的 汽车 ， 为 了 估计 它 的 英里 /加 仓 额定 值 ， 我 们 首先 应 求 出 英里 /加 仓 额 定 值 的 自然 
对 数 的 估计 值 。 
LogeMPG = 4. 52 -0. 000 501 x2 500 =3. 267 5 
然后 通过 求 自然 对 数 为 3. 267 5 的 反对 数 ， 得 到 英里 /加 个 额定 值 的 咎 计 值 。 利 用 具有 指数 功能 的 计算 器 ， 计 
算 e 的 3.2675 次 军 ， 我 们 得 到 26.2 英里 /加 仓 额定 值 。 : 
修正 非常 数 方差 问题 的 另 一 方法 是 用 1/y 作 应 变量 来 代替 原来 的 应 变量 y。 这 种 类 型 的 变换 叫做 倒数 变换 。 
例如 ， 如 果 应 变量 是 按 英里 /加 仓 来 测量 的 ， 倒 数 变换 将 得 到 一 个 新 的 应 变量 ， 这 个 新 的 应 变量 的 单位 是 17 ( 英 
里 /加 仑 ) 或 者 是 加 仑 /英里 。 在 一 般 情况 下 ， 没 有 方法 能 决定 ， 究 况 是 进行 对 数 变 换 还 是 进行 倒数 变换 效果 更 
好 ， 除 非 对 这 两 种 变换 都 实际 地 试 一 试 。 | 


16. 1. 4 ”内 线性 的 非 线 性 模型 
参数 (B。，B! ，…，B,) 的 稼 次 超过 一 次 的 模型 被 称 为 非 线性 模型 。 然 而 ， 对 于 指数 模型 情形 ， 我 们 能 对 变 
量 进 行 一 个 变换 ， 将 模型 变换 为 形 如 式 (16-1) 的 一 般 线 性 模型 ， 从 而 使 得 我 们 能 进行 回归 分 析 。 指 数 模 型 与 下 
面 的 回归 方程 有 关 。 
: E(y) = BopBr (16-7) 
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当 应 变量 y 随 着 * 的 增加 ， 按 一 个 不 变 的 百分比 ， 而 不 是 一 个 固定 的 数量 增加 或 减少 时 ， 适 合 应 用 这 种 回归 
模型 。 

作为 一 个 例子 ,假设 一 种 产品 的 销售 收入 y 依 赖 于 广告 费用 x(1 000 美元 ) ， 这 个 问题 对 应 的 指数 模型 如 下 
所 示 。 

E(y) = 500 x (1.2)’ 

于 是 ， 对 于 x=1,; E(y) =500Xx(1.2)! =600; 对 于 x=2, E(y)=500 x(1.2)’ =720 对 于 %=3, E(y) = 
500 x (1.2) =864。 注意 ， 在 这 种 情形 下 ，E(y) 不 是 按 一 个 固定 的 数量 增加 ， 而 是 按 一 个 不 变 的 百分比 增加 ; 
增长 的 百分比 是 20% 。 

我 们 能 通过 对 式 (16-7) 两 边 取 对 数 ， 将 这 个 非 线性 回归 方程 转化 为 一 个 线性 回归 方程 。 


logE(y) = logB, + xlogB, (16=8) 
注意 ， 如 果 我 们 设 y =logE(y) ,Bo = logB。，B1 = logB,， 我 们 能 将 式 (16-8) 写成 
y = Bot+Bix 


显然 ,我们 能 利用 简单 线性 回归 的 公式 求 出 饲 和 的 估计 量 。 用 负 和 刀 表 示 估 计量 ,得 到 下 面 估计 的 回归 
方程 。 
学 4 机 (16-9) 
为 了 在 已 知 x 的 值 时 ， 得 到 原来 的 应 变量 y 的 预测 值 ， 我 们 首先 将 x 的 值 代入 式 (16-9) 中 并 计算 出 Y 。yY 的 
反对 数 就 是 我 们 要 求 的 y 的 预测 值 ， 或 者 是 y 的 期 望 值 。 
许多 非 线性 模型 不 能 被 转化 为 一 个 等 价 的 线性 模型 。 所 以 这 种 模型 限制 了 我 们 在 商务 和 经 济 中 的 应 用 。 此 
外 ， 研 究 这 种 模型 所 必需 的 数学 背景 超出 了 这 本 教科 书 的 范围 。 


交通 流量 (7) ”车速 (x) “|| 交通 流量 (7) ”车 速 (x) 





a 对 这 些 数据 建立 一 个 形 如 了 =b, +bix 的 估计 的 回 a. 对 这 些 教 据 建立 一 个 估计 的 回归 方程 
归 方 程 。 对 这 个 方程 是 否 适 宜 对 yy 的 值 进行 预测 b. 在 a=0.01 的 显著 性 水 平 下 ， 检 验 x 和 yy 之 间 的 
做 出 评述 。 显著 关系 。 


b. 对 这 些 数据 建立 一 个 形 如 =b, + bx+bb* 的 估计 ”6 在 一 项 有 关 应 急 服 务 交通 工具 的 研究 中 ， 研 究 人 员 
的 回归 方程 。 对 这 个 方程 是 否 适 宜 对 y 的 值 进 行 要 调查 提供 应 急 服 务 的 交通 工具 的 数量 和 行驶 的 平 


预测 做 出 评述 。 均 距 离 之 间 的 关系 。 下 表 给 出 了 采集 的 数据 。 

c， 当 w=20 时 ， 预 测 y 的 值 。 应 急 服务 交通 工具 的 数量 行驶 的 平均 距离 (英里 ) 
应 用 9 1.66 
4. 公路 管理 部 门 进行 一 项 有 关 交 通 流量 和 车 速 之 间 关 11 b 
系 的 研究 。 假 设 模 型 的 形式 如 下 所 示 。 16 0. 83 
y=Bo +Bx+e 21 0 62 
式 中 ，y 代表 交通 流量 ( 辆 [小 时 ) ;ix 代表 车 速 27 0.51 
(英里 /小 时 ) 。 30 0.47 


下 面 是 在 下 班 高 峰 期 间 对 6 个 主要 出 城 交通 道口 采 EE WY ET ED cE 
集 的 数据 。 a 将 处 理应 总 服务 交通 工具 需要 行驶 的 平均 距离 视 
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为 应 变量 ， 对 这 些 数据 画 出 散 点 图 。 a 以 稀有 等 级 为 自 变量 ,以 价格 为 应 变量 ， 务 出 这 
b. 简单 线性 回归 模型 是 否 是 一 个 适宜 的 模型 ? 请 做 些 数据 的 散 点 图 。 简 单线 性 回归 模型 是 一 个 合适 
出 解释 。 的 模型 吗 ? 
c. 对 这 些 数据 ， 建 立 一 个 你 认为 能 很 好 地 解释 这 两 b. 令 “ = 稀有 等 级 ， 以 xx 和 x 做 为 两 个 自 变量 ， 建 
个 变量 之 间 关 系 的 估计 的 回归 方程 。 立 一 个 估计 的 多 元 回归 方程 。 

8: 克 尔 维特 、 法 拉 利 和 捷豹 生产 了 各 式 各 样 的 持续 升值 c. 参考 由 式 (16:7) -给 出 的 非 线 性 关系 。 对 这 个 
的 老爷 车 。 根据 马 丁 汽 车 收藏 评估 系统 (Martin Rat- 模型 ， 利 用 对 数 变换 建立 一 个 估计 的 回归 
ing System for Collectible Cars) ， 下 面 是 15 辆 老 黎 车 的 方程 。 
稀有 等 级 (1 ~20) 和 价格 (单位 ; 1 000 美元 ) 的 统 d. 你 推荐 的 估计 的 回归 方程 是 在 (b) 中 建立 的 还 
计数 据 ( BusinessWeek website，2006 年 2 月 )。 是 在 (c) 中 建立 的 ? 请 做 出 解释 。 

年 份 品牌 型 号 等 级 价格 〈1 000 美元 ) 
1984 雪佛兰 克 尔 维特 18 1 600.0 
1956 雪佛兰 克 尔 维特 265/225-=hp 19 4 000, 0 
1963 雪佛兰 克 尔 维特 coupe (340-bhp 4-speed) 18 1 000.0 
1978 雪佛兰 克 尔 维特 coupe Silver Anniversary 19 1 300.0 
1960 ~ 1963 法 拉 利 250 GTE 2 +2 16 350.0 
1962 ~ 1964 法 拉 利 250 GTLLusso 19 2650.0 
1962 法 拉 利 250 GTO 18 | 375.0 
1967 ~ 1968 法 拉 利 275 GTB/4 NARTSpyder 17 450.0 
1968 ~ 1973 法 拉 利 365 GTB/4 Daytona 17 140.0 
1962 ~ 1967 捷豹 E-type OTS 15 77.5 
1969 ~ 1971 捷豹 E-type Series I[ OTS 14 62.0 
1971 ~1974 捷豹 B-type SeriesW OTS 16 125.0 
1951 ~ 1954 捷豹 XK 120 roadster ( steel ) 17 400. 0 
1950 ~ 1953 捷豹 XK C-type 16 250.0 
1956 ~ 1957 捷豹 XKSS 13 70.0 


16.2 确定 什么 时 候 增 加 或 者 删除 变量 


在 这 一 节 我 们 将 说 明 ， 如 何 利用 下 检验 来 确定 ， 将 一 个 或 一 个 以 上 的 自 变 量 增加 到 一 个 多 元 回归 模型 上 是 否 
适宜 的 问题 。 这 一 检验 的 根据 是 : 测定 一 个 多 元 回归 模型 增加 一 个 或 一 个 以 上 的 自 变 量 所 得 到 的 误差 平方 和 减少 
的 数量 。 首 先 我 们 将 说 明 ， 怎 样 将 这 一 检验 应 用 到 上 一 章 介 绍 的 Butler 运输 公司 的 例子 中 去 。 

在 第 15 章 ， 我 们 用 Butler 运输 公司 的 例子 来 说 明 多 元 回归 分 析 的 应 用 。 我 们 回想 一 下 ， 公 司 的 管理 人 员 和 希望 
利用 运输 车 辆 每 天 运送 货物 的 行驶 里 程 和 运送 货物 的 次 数 这 两 个 自 变 量 建立 一 个 估计 的 回归 模型 ， 并 用 这 个 模型 
去 预测 运输 车 辆 全 天 的 行驶 时 间 。 只 用 运输 车 辆 运送 货物 的 行驶 里 程 x, 作 自 变 量 ， 利 用 最 小 二 乘法 得 到 下 面 的 估 
计 的 回归 方程 。 

六 = 1.27 + 0.067 8x, 

在 第 15 章 我 们 已 经 给 出 了 这 个 模型 的 误差 平方 和 是 SSE = 8.029。 当 运送 货物 的 次 数 x 作为 第 二 个 自 变 量 增 
加 到 模型 上 时 ， 我 们 得 到 下 面 的 估计 的 回归 方程 。 

7? = - 0. 869 + 0. 061 1x: +0.923%; 

这 个 模型 的 误差 平方 和 是 SSE =2. 299。 显 然 ， 增 加 巡 导 致 SSE 的 数量 减少 。 我 们 希望 回答 的 问题 是 : 增加 变 
量 x*, 是 否 导致 了 SSE 的 数量 显著 地 减少 ? 

当 模 型 中 区 是 唯一 的 自 变 量 时 ， 我 们 用 记号 SSE(x, ) 表示 模型 的 误差 平方 和 ; 当 模 型 中 有 两 个 自 变 量 x ，x， 
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时 ， 我 们 用 记号 SSE(x, ，x,) 表示 模型 的 误差 平方 和 ， 等 等 。 因 此 ， 在 仅 包含 自 变量 x 的 模型 中 ， 将 x*, 增 加 到 模 
型 上 上 ， 引 起 SSE 减少 的 数量 是 
SSE(%) = SSE(x, ,x;) = 8.029 -2.299 = 55730 
我 们 进行 检验 去 确定 ， 这 一 数量 上 的 减少 是 否 是 显著 的 。 
统计 量 的 分 子 是 用 SSE 减少 的 数量 除 以 增加 到 原 模型 上 的 自 变 量 的 个 数 。 这 里 ， 仅 有 一 个 和 目 变量 六 增加 到 
模型 上 ， 于 是 正统 计量 的 分 子 是 
SSE(%) = SSE(% jx) 
1 
得 到 的 这 个 结果 是 模型 每 增加 一 个 自 变量 ， 误 差 平方 和 SSE 减少 数量 的 度量 。 下 统计 量 的 分 母 是 包括 全 部 
自 变量 的 模型 的 均 方 误差 。 对 于 Butler 运输 公司 的 例子 ， 对 应 的 模型 含有 两 个 自 变 量 x, 和 x,， 于 是 p=2， 并 
且 有 


= 53.730 


MSE = Sa) 2.299 - 0.3284 

下 一 万 一 本 7 

下 面 的 统计 量 给 出 了 将 自 变 量 %, 增 加 到 模型 上 ， 在 统计 上 是 否 显 著 的 检验 。 
Som) > SHC 
] 
hs TT (16-10) 
n=-p=] 

这 个 下 上 检验 的 分 子 自 由 度 等 于 增加 到 模型 中 的 自 变 量 的 个 数 ， 分 母 自 由 度 等 于 mn -PP -1。 
对 于 Butler 运输 公司 的 例子 ， 我 们 得 到 


5.730 
1 5. 730 
2..299 :0.3289 = We 


7 

查阅 附录 了 3 的 表 了 B-4 ， 对 于 显著 性 水 平 a =0.05， 我 们 得 到 Fo =5.59。 因 为 =17.45 > Fos =5.59， 于 是 我 
们 应 该 拒绝 % 在 统计 上 是 不 显著 的 原 假设 ; 换 旬 话说 ， 在 仅 含 有 自 变量 x 的 模型 中 ， 增 加 自 变 量 x, 到 模型 上 ， 将 
引起 误差 平方 和 显著 地 减少 。 

当 我 们 想 要 检验 仅 增加 一 个 自 变 量 到 模型 上 的 显著 性 时 ， 刚 刚 叙 述 的 下 检验 得 到 的 结果 ， 也 能 通过 使 用 在 
第 15. 4 节 中 介绍 的 对 单个 参数 的 上 检验 得 到 。 实 际 上 ， 刚 刚才 计算 的 正统 计量 是 用 来 检验 单个 参数 显著 性 的 上 统 
计量 的 平方 。 

因为 当 模 型 仅 增加 一 个 自 变量 时 ，;! 检验 与 下 检验 是 等 价 的 ， 所 以 我 们 现在 能 进一步 说 明 ， 为 了 检验 单个 参 
数 的 显著 性 ， 可 以 适当 地 利用 + 上 检验。 如 果 单 个 参数 是 不 显著 的 ， 那 么 对 应 的 变量 就 能 从 模型 中 删除 。 但 是 ， 如 
果 上 检验 显示 ， 有 两 个 或 两 个 以 上 的 参数 是 不 显著 的 ， 那 么 基于 上 检验 ， 从 模型 中 删除 的 突变 量 永远 不 能 超过 一 
个 ; 如 果 有 一 个 变量 从 模型 中 被 删除 ， 那 么 最 初 不 显著 的 第 二 个 变量 可 能 变 成 一 个 显著 的 变量 。 

我 们 现在 着 手 考 虑 增加 一 个 以 上 的 自 变 量 ， 即 一 组 变量 时 ， 是 否 会 引起 误差 平方 和 有 一 个 显著 减少 的 
问题 。 


16. 2. 1 一 般 情形 
考虑 以 下 含有 g 个 自 变 量 的 多 元 回归 模型 ， 这 里 g <p。 
y =pBo +Bix t+Bxy +** +BxX +e (16-11) 
如 果 增 加 自 变量 x ,, ，x, ,，,，*…，%, 到 这 个 模型 上 ， 我 们 就 得 到 一 个 含有 p 个 自 变量 的 多 元 回归 模型 。 
y= Bo th tr t+ t+Brxr +t Bs t Bm tt“ tH + (16-12) 


为 了 检验 增加 的 自 变 量 x, ,,，x,,a ，…， 鸭 是 否 在 统计 上 是 显著 的 ， 我 们 提出 的 原 假 设 和 备 择 假设 叙述 如 下 。 
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HsB, = Ba = pB, =0 
H,: 参 数 B ;Bw sB, 中 至 少 有 一 个 不 等 于 零 
下 面 的 统计 量 给 出 了 检验 增加 的 自 变量 x ,1 ，x, ,;，…，% 在 统计 上 是 否 显 著 的 根据 。 
SSE(w, ,%, 9" ,%,) = SOE(W wh dm ll 


= re 2 
F SSE(x, JX, ,"* ,X, ,Xs ,Tt, ) (16-13 ) 


”pp 





n=—-p-|] 
然后 ,将 计算 出 的 下 统计 量 的 值 与 分 子 的 自由 度 为 p -gqg、 分 母 的 自由 度 为 n-p -1 的 分 布 表 的 上 侧 分 位 数 
.进行 比较 。 如 果 望 >,， 我 们 拒绝 所 ， 并 且 可 以 得 出 结论 : 增加 的 这 组 自 变量 在 统计 上 是 显著 的 。 注 意 ， 对 于 
g=1, p=2 这 种 特殊 情形 式 (16-13) 就 简化 为 式 (16-10)。” 
许多 学 生 感 到 式 (16-13) 有 些 复杂 。 为 了 给 出 F 统 计量 一 个 比较 简单 的 表述 ， 我 们 将 自 变量 个 数 较 少 的 模 
型 称 为 简化 模型 ， 将 自 变量 个 数 较 多 的 模型 称 为 完全 模型 。 如 果 我 们 用 SSE (简化 ) 表示 简化 模型 的 误差 平方 
和 ， 用 SSE (完全) 表示 完全 模型 的 误差 平方 和 ， 我 们 能 把 式 (16-13) 的 分 子 写成 


SSE( 简 化》 SSE( 完全) 和 -入 
i ey 


注意 , 式 (16-14) 中 的 分 母 “ 增 加 的 项 数 ” 表 示 完 全 模型 的 自 变量 个 数 和 简化 模型 的 自 变量 个 数 之 间 的 差 。 式 
(16-13) 的 分 母 是 完全 模型 的 误差 平方 和 除 以 对 应 的 自由 度 ; 换 句 话说 ， 式 (16-13) 的 分 母 是 完全 模型 的 均 方 
误差 。 我 们 用 MSE (完全 ) 表示 完全 模型 的 均 方 误差 .于 是 我 们 就 能 将 式 (16-13) 写成 

SSE( 位 北 ) i 完全 ) 

A 


. 加 的 项 
F = MSE( 完全 ) (16-15 ) 


为 了 说 明 这 个 F 统 计量 的 应 用 ， 假 设 我 们 有 一 个 含有 30 个 观测 值 的 回归 问题 。 第 一 个 模型 的 自 变量 是 x, ，z， 
和 %s， 它 的 误差 平方 和 为 150; 第 二 个 模型 的 自 变量 是 xj; ,ws， 友和 xs， 它 的 误差 平方 和 为 100。 增 加 两 个 自 
变量 和 ,到 第 一 个 模型 上 ， 会 引起 误差 平方 和 显著 地 减少 吗 ? \ 
首先 ， 我们 注意 到 : SST 的 自由 度 是 30 -1 =29， 完 全 模型 的 回归 平方 和 的 自由 度 是 5 (在 完全 模型 中 自 变量 的 
个 数 )。 于 是 ， 完 全 模型 的 误差 平方 和 的 自由 度 是 29 -5=24， 因 此 MSE (完全 ) =100/24.=4.17.) 所 以 统计 量 是 
150 - 100 


i 
4. 17 Su 


将 这 个 计算 出 来 的 统计 量 的 值 与 分 子 的 自由 度 为 2， 分 母 的 自由 度 为 24 的 分 布 表 的 值 进 行 比较 。 在 a = 
0.05 的 显著 性 水 平 下 ， 由 附录 B 表 B-4， 我 们 查 出 Foos =3.40。 因 为 F( =6.00) > Foos( =3.40)， 我 们 的 结论 是 : 
增加 的 自 变 量 忆 和 所 在 统计 上 是 显著 的 。 


16. 2. 2 ”pp- 值 的 应 用 

我 们 还 能 利用 p- 值 准则 来 确定 ， 增 加 一 个 或 一 个 以 上 的 自 变量 到 一 个 多 元 回归 模型 上 是 否 适宜 的 问题 。 在 上 
面 的 例子 中 我 们 已 经 说 明 ， 如 果 将 两 个 自 变量 x, 和 ,增加 到 有 3 个 自 变量 x,，%, 和 ,的 模型 上 时 ， 怎 样 实施 F 检 
验 来 确定 ， 这 一 增加 在 统计 上 是 显著 的 。 对 于 这 个 例子 ， 计 算出 的 正统 计量 的 值 是 6.00， 将 严 =6.00 与 临界 值 
,=3.40 进行 比较 ， 我 们 的 结论 是 : 增加 的 自 变量 x 和 x; 在 统计 上 是 显著 的 。 与 分 子 的 自由 度 为 2， 分 母 的 自 
由 度 为 24 的 亚 统 计量 的 值 下 =6. 00 相 联 系 的 p- 值 =0. 008 <0.05， 于 是 我 们 也 能 得 出 结论 ， 增 加 的 两 个 自 变 量 x 
和 .在 统计 上 是 显著 的 。 从 F 分 布 表 中 直接 查 出 p- 值 是 一 件 困难 的 事 ， 但 是 计算 机 软件 包 ， 例 如 Minitab 或 Excel 
可 以 不 费力 地 计算 出 p- 值 。 


昌 许多 计算 机 软件 包 ， 例 如 Minitab， 给 出 了 按 顺 序 进 入 模型 的 每 个 自 变量 所 对 应 的 增加 的 平方 和 ; 在 这 种 情形 下 ， 确 定 是 否 增加 或 
者 删除 一 组 变量 的 检验 的 计算 被 简化 了 。 


注释 和 评论 
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正统 计量 的 计算 也 能 根据 回归 平方 和 的 差 来 完成 。 为 了 说 明 这 种 计算 形式 的 下 统计 量 ， 首 先 ， 我 们 注意 到 、 
SSE( 简化 ) = SST - SSR( 简 化 ) 
SSE( 完全 ) = SST - SSR( 完全 ) 


所 以 
SSE( 简化) :SSE( 完 全 )= [SST - SSR( 简 化 )] - [SST -SSR( 完全 )] 
= SSR( 完全 ) - SSR( 简化) 
于 是 
SSR( 完全 ) - SSR( 简化 ) 
P = 二 自 变 量 增加 的 个 数 
MSE( 完全 ) 





方法 
10. 在 含有 27 个 观测 值 的 回归 分 析 中 ， 我 们 已 经 建立 
了 下 面 的 估计 的 回归 方程 。 
5 
对 于 这 个 秸 计 的 回归 方程 ，SSTP=1 550，SSE =520。 
a. 在 a=0.05 的 显著 性 水 平 下 ， 检 验 x 是否 难 显 
著 的 。 
假设 将 自 变 量 %, 和 % 增 加 到 模型 上 ， 我 们 得 到 
了 下 面 的 估计 的 回归 方程 。 
y = 16.3 +2.3x, +12. 1x, -5.8x, 
对 于 这 个 估计 的 回归 方程 ，SST =1 550，SSE =100。 
b. 在 a=0.05 的 显著 性 水 平 下 ， 利 用 到 检验 去 确 
定 ， 刀 和 好 对 模型 的 显著 性 是 否 有 作用 。 
应 用 
12. 美国 女子 职业 高 尔 夫 球 协 会 保存 了 高 汞 夫 球员 参 
:加 LPGA 巡回 赛 的 成 绩 和 奖金 的 统计 资料 。 在 2005 
年 LPGA 巡回 赛 的 赛事 中 ， 总 奖金 前 30 位 的 高 尔 
夫 球员 的 年 终 成 绩 的 统计 资料 ， 保 存在 本 书 所 附 光 
盘 名 为 LPGATour 的 文件 中 (LPGCA Tour website， 
2006 年 ) 。 有 关 数 据 的 描述 如 下 所 示 - 
Earnings ($1000) 是 以 1000 美元 为 单位 的 总 
奖金 ; 
SecoringAvg， 是 参加 全 部 赛事 的 平均 击 球 次 数 ; 
Greens in Reg. 是 高 尔 夫 球员 能 够 标准 杆 上 果 怜 次 
数 的 比例 ; 
PuttingAvg, 是 将 标准 杆 上 果 岭 的 高 尔 夫 球 推 盾 入 
洞 的 平均 杆 数 ; 


i i 
Wk ya i 

» 

ne | 3 


Sand Saves 是 一 旦 高 尔 夫 球 员 将 高 尔 夫 球 打 入 果 岭 
边 的 沙 坑内 ， 高尔夫 球 员 能 效 服 “地 面 的 高 低 起 
伏 ” 将 球 救 出 的 比例 。 

标准 杆 上 果 岭 是 指 ， 如 果 高 泵 夫 球 的 任 一 部 分 

触及 果 岭 的 推 村 区 域 ， 并 且 使 高 尔 夫 球 到 达 推 杆 区 

的 杆 数 与 标准 杆 的 差 至 少 是 2 杆 。 

a 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 高 尔 
夫 球员 将 标准 杆 上 果 岭 的 高 尔 夫 球 推 杆 入 洞 的 
平均 杆 数 已 知 时 ， 能 用 来 预测 高 尔 夫 球员 参加 
全 部 赛事 的 平均 击 球 次 数 。 

b. 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 高 尔 
夫 球 员 能 够 标准 杆 上 果 岭 次 数 的 比例 ， 将 标准 
杆 上 果 岭 的 高 尔 夫 球 推 杆 入 洞 的 平均 村 数 ， 以 
及 一 院 将 高 尔 夫 球 打 入 果 岭 边 的 沙 坑内 ， 高 尔 
夫 球 员 能 克服 “地 面 的 高 低 起 伏 ” 将 球 救出 的 
比例 已 知 时 ， 能 用 米 预 测 高 尔 夫 球 员 参 加 全 部 
赛事 的 平均 击 球 次 数 。 

c, 在 a=0.05 的 显著 性 水 平 下 ， 检验 在 (b) 中 增 
加 的 两 个 自 变量 ; 能 够 标准 杆 上 果 岭 次 数 的 比 
例 和 一 宇 将 高 尔 夫 球 打 入 果 岭 边 的 沙 坑内 ， 高 
尔 夫 球员 能 克服 “地 面 的 高 低 起 做” 将 球 救 出 
的 比例 ， 对 在 (a) 中 建立 的 估计 的 回归 方程 ， 
是 否 有 显著 的 作用 。 请 作出 解释 。 


. 美国 心脏 协会 经 过 十 年 的 研究 ， 得 到 了 有 关中 风 


风险 与 年 龄 、 血 压 和 吸烟 嗜好 相关 性 的 统计 资料 。 
这 项 研究 的 部 分 数据 如 下 表 所 示 。 中 风 风 险 被 认 
为 是 一 个 人 在 未 来 的 十 年 内 发 生 中 风 的 概率 ( 乘 
上 100)s。 对 于 吸烟 嗜好 变量 ,1 表示 是 一 名 吸烟 
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者 ,而 0 表示 是 一 名 不 吸烟 者 。 


16. 3 


中 风 风 险 年 龄 血压 
12 SY 152 
24 67 163 
13 58 155 
56 86 177 
28 59 196 
S51 76 189 
18 56 155 
31 78 120 
37 80 135 
15 78 98 
22 71 152 
36 70 173 
15 67 135 
48 77 209 
15 60 199 
36 82 119 
大 型 问题 的 分 析 


股 烟 磨 好 


-= 


37 


80 
62 
59 


( 续 ) 
吸烟 嗜好 


一 


a. 建立 一 个 估计 的 回归 方程 ， 使 这 个 方程 在 年 龄 
和 血压 已 知 时 ， 能 用 来 预测 中 风 的 风险 。 
b. 考虑 增加 两 个 自 变量 到 (a) 中 所 建立 的 模型 


十 ,一 个 自 变量 是 年 龄 和 血压 之 间 的 交互 作用 ， 
另 一 个 自 变 量 是 一 个 人 是 否 有 吸烟 嗜好 。 利 用 


这 四 个 自 变量 建立 一 个 估计 的 回归 方程 。 
c. 在 a=0.05 的 显著 性 水 平 下 ， 通 过 检验 是 否 可 以 看 


出 ， 增 加 交互 作用 和 吸烟 嗜好 这 两 个 自 变量 ， 对 在 
(a) 中 建立 的 估计 的 回归 方程 有 显著 的 作用 。 


在 介绍 多 元 回归 分 析 时 ， 我 们 广泛 地 应 用 了 Butler 运输 公司 的 例子 。 在 探讨 介绍 性 的 概念 时 ， 这 个 例子 涉及 
的 变量 较 少 是 一 大 优点 ， 但 是 为 了 说 明 在 建 横 过 程 中 我 们 应 该 选择 哪些 变量 进入 模型 ， 这 个 例子 就 显得 困难 了 。 
为 了 给 型 将 要 在 下 一 节 详 细 论 述 的 变量 选择 过 程 ， 我 们 引入 由 8 个 自 变 量 、25 组 观测 值 组 成 的 一 个 数据 集 。 得 克 
萨 斯 州 基 督 教 大 学 市 场 营 销 系 的 David W. Cravens 博士 提供 了 这 些 数据 ， 并 允许 我 们 使 用 这 些 数据 ， 所 以 ,我 们 
把 这 个 数据 集 称 为 Cravens 数据 。” 

Cravens 数据 是 一 家 公司 的 数据 ， 这 家 公司 在 一 些 销售 区 域 销售 产品 ， 并 且 为 每 一 个 销售 区 域 分 别 指定 了 独家 
经 销 商 。 进 行 回归 分 析 的 目的 是 为 了 确定 : 预测 ( 自 ) 变量 的 变化 是 否 能 解释 每 一 个 销售 区 域 的 销售 情况 。 由 25 


个 销售 区 域 组 成 了 一 个 随机 样本 ， 得 到 的 数据 如 表 16-5 所 示 ; 变量 的 定义 在 表 16-6 中 给 出 。 


Sales 
3 669. 88 


3 473.95 


2295. 10 
4675.56 
6 125. 96 


2134.94 


5031.66 
3 367,45 


6519.45 


4 876. 37 
2 468; 27 
23533,31 
2 408. 11 
2 337. 38 
4586,95 


台 ” 详细 内 容 参 见 David W. Cravens，Robert B. Woodruff 和 Joe C. Stamper， 
ance” , Journal of Marketing, 36 (January 1972) : 31-37, Copyright 1972 American Marketing Association。 


Time 


43.10 


108. 13” 


13.82 
186. 18 
161. 79 

8. 94 
365. 04 
220, 32 
127. 64 
105. 69 

57. 72 

23. 58 

13. 82 

13. 82 

86. 99 


Poten 
74 065. 1 
58 117.3 
21 118.5 
68 521. 3 
57 805. 1 
37 806.9 
50 935.3 
35 602. 1 
46 176.8 
42 053,2 
36 829. 7 
33 612.7 
21 412.8 
20 416.9 
36 272.0 


表 16-5 Cravens 数据 


AdvExp 
4 582.9 
5 539,8 
2950.4 
2243. 1 
7747: 1 
402.4 

3 140,. 6 
2.086.2 
8 846. 2 
.6713:1 
2761.8 
1991.8 
1971.5 
1737.4 
10 694.2 


Share 
2.51 
S51 

10. 91 
8. 27 
9. 15 
3 
8. 54 
7.07 

12. $54 
8. 85 
5. 38 
5.43 
8. 48 
7.80 

10. 34 


Accounts 
74. 86 
107. 32 
96. 75 
195., 12 
180, 44 
104, 88 
256. 10 
126. 83 
203. 25 
119. 51 
116. 26 
142. 28 
89. 43 
84. 55 
119. 51 


Work 
15. 05 
19. 97 
17. 34 
13. 40 
17. 64 
16. 22 
18. 80 
19. 86 
17: 42 
21:41 
16. 32 
14. 51 
19. 35 
20. 02 
15.26 


Rating 
4.9 
5 
2.9 
34 
6 
45 
4.6 
时: 
4.9 
2.8 
3,1 
4.2 
4.3 
4 2 
5 


“An Analytical Approach for Evaluating Sales Territory Perform- 
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( 续 ) 
Sales winG Poten AdvExp Share Change Accounts Work Rating 
2 729. 24 165. 85 23 093. 3 8618.6 .TS 0.04 80. 49 15. 87 3.6 
3 289. 40 116. 26 26 878.6 7747.9 6.64 0. 68 136. 58 7.81] 3,4 
2 800. 78 42. 28 39 572.0 4 565.8 5.45 0. 66 78. 86 16. 00 4.2 
3 264. 20 52. 84 51 866. 1 6 022.7 6. 31 -0. 10 136. 58 17.44 3.6 
3453.62 165. 04 $8 749.8 3 下 了 6.35 一 0.03 138. 21 17. 98 3 
1 741.45 7 23 990. 8 861.0 T5379 -1.63 75. 6] 20. 99 1.6 
2 035. 75 13, 82 25 694.9 3.57. 5 8. 39 一 0.43 102, 44 21.66 3; 牛 
1 578. 00 名 | 必 23 736.3 2 845.5 5. 15 0.04 76. 42 21. 46 2.7 
4 167, 44 58, 44 34 314,3 $5 060, 1 12. 88 0. 22 136. 58 24, 78 2.8 
2 799. 97 21. 14 22 809. 5 3 552.0 9. 14 -0.74 88. 62 24. 96 3.9 


表 16-6 Cravens 数据 的 变量 定义 


TT 
Sales 经 销 商 总 的 信贷 销售 收入 
Time 按 月 计算 的 经 销 商 为 公司 从 事 销 售 业务 的 时 间 
Poten 市 场 潜 力 ; 销售 区 域 总 销售 数量 * 
AdvExp 销售 区 域 广告 费用 
Share 市 场 份额 ; 过 去 四 年 的 加 权 平 均 
Change 过 去 四 年 间 市 场 份额 的 变化 
Accounts 经 销 商 指定 的 顾客 可 以 内 购 的 商店 数目 * 
Work 工作 量 ; 根据 商店 一 年 的 零售 和 批发 烙 计 算 的 加 权 指 数 
Rating 根据 八 个 方面 的 业绩 对 经 销 商 综合 排序 ; 综合 排序 得 分 为 1 ~7 分 


注 : *# 为 保护 商业 秘密 ， 这 些 教 据 已 被 编 成 代码 。 


作为 第 一 步 ， 我 们 考虑 每 一 对 变量 之 间 的 样本 相关 系数 。 图 16-13 是 利用 Minitab 的 相关 命令 得 到 的 相关 甜 
阵 。 注 意 ，Sales 和 Time 之 间 的 样本 相关 系数 是 0. 623，Sales 和 Poten 之 间 的 样本 相关 系数 是 0. 398 ， 等 等 。 


Sales i AdvExD Share Change ACcCcounts Work 
Time 0 .623 
Poten 0.598 
AdVExp 0.596 
Share 0.484 


Change 0.489 
Accounts 0..754 
Work -QQ.117 
Rating 0.402 





16-13 ”Cravens 数据 的 样本 相关 系数 


我 们 观察 一 下 自 变量 之 间 的 样本 相关 系数 ， 我 们 看 到 Time 和 Accounts 之 间 的 样本 相关 系数 是 0.758; 因此 ， 如 
果 我 们 用 Aceounts 作为 一 个 自 变量 ， 那 么 Time 将 不 会 对 模型 增加 更 多 的 解释 能 力 。 回 忆 一 下 在 第 15. 5 节 中 讨论 多 重 
共 线 性 时 的 经 验 检验 法 则 : 对 于 任意 两 个 自 变 量 ， 如 有 果 祥 本 相关 系数 的 绝对 值 大 于 0.7， 那 么 多 重 共 线性 可 能 对 估计 
结果 产生 影响 。 因 此 ， 如 果 可 能 的 话 ， 我 们 应 该 避免 Time 和 Accounts 这 两 个 自 变量 同时 出 现在 一 个 回归 模型 中 。 
Change 和 Rating 之 间 的 样本 相关 系数 是 0.549， 它 也 是 比较 高 的 ， 所 以 我 们 有 理由 要 对 这 两 个 自 变量 做 进一步 考虑 。 

让 我 们 观察 一 下 Sales 和 每 一 个 自 变量 之 间 的 样本 相关 系数 ， 很 快 我 们 就 能 知道 ， 哪 些 自 变量 它们 自己 就 是 
很 好 的 预测 变量 。 我 们 看 到 ，Aceounts 是 Sales 的 一 个 最 好 的 预测 变量 ， 因 为 它们 之 间 的 样本 相关 系数 最 高 
(0.754) 。 回 想 一 下 ， 对 于 一 个 自 变量 的 情形 ， 样 本 相关 系数 的 平方 是 判定 系数 。 于 是 ，Accounts 能 解释 Sales 中 
的 (0.754)? x 100， 或 者 56.85% 的 变异 性 。 接 下 来 最 重要 的 自 变 量 Time、Poten 和 AdvExp， 它 们 每 一 个 和 Sales 
之 间 的 样本 相关 系数 都 近似 等 于 0.6。 

虽然 存在 潜在 的 多 重 共 线性 ， 我 们 还 是 考虑 利用 全 部 8 个 自 变量 ， 建 立 一 个 估计 的 回归 方程 。Minitab 计算 机 
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软件 包 给 出 的 计算 结果 如 图 16-14 所 示 。8 个 自 变量 的 多 元 回归 模型 的 修正 判定 系数 是 88. 3% 。 然 而 我 们 注意 到 ， 
对 于 单个 参数 的 上 检验， 在 a = 0.05 的 显著 性 水 平 下 ， 当 所 有 其 他 变量 的 影响 已 知 时 ， 仅 有 Poten、AdvExp 和 
Share 的 p- 值 是 显著 的 。 因 此 ， 我 们 或 许 倾向 于 研究 仅仅 利用 这 3 个 自 变量 而 得 到 的 模型 。 在 图 16-15 中 ，Minitab 
给 出 了 利用 这 3 个 自 变量 得 到 的 估计 的 回归 方程 的 结果 。 我 们 看 到 ， 估 计 的 回归 方程 的 修正 判定 系数 是 82.7% ， 
尽管 它 不 如 利用 全 部 8 个 自 变量 得 到 的 估计 的 回归 方程 那样 好 ， 但 这 个 修正 判定 系数 也 是 非常 高 的 。 


The regression equation is 
Sales = - 1508 + 2.04 Time + 0.0372 Poten + 0.15]1 AGVExD + 199 Share 
+ 291 Change + 5.55 Accounts + 19.8 Work + 8 Rating 


Predictor Coef SE Coef 
Constant -1507.8 TAO 
Time 2.010 1 中 
Poten 0.037206 0.008202 
RAGVEXP 0.15094 0:04711 
Share 199708 67.03 
Change 290.9 186€.8 
ACcCounts 5..550 /0 
Work 19;.79 33.68 
Rat ing $3.2 le 


COOPFPFPF 人 DP 
Bs i [es a Wey WN: 5s 


S = 449.015 R=-SG = 92.2$%  R-Sal(adj) = 88.3% 
Analysis of Variance 


SOURCE DF S83 MS F p 
Regression 8 38153712" 4769214 123.66 '0.000 
Residual Error 16 3225837 201615 

Total 24 41379549 





图 16-14 包括 全 部 8 个 自 变 量 模型 的 Minitab 输出 


The reqression equation is 
Sales = - 1604 + 0.0543 Poten + 0.167 AdvExp + 283 Share 


Predictor Coef SE Coef 外 Pp 
Constant =L603.6 508.6 =3.17 (a005 
Poten 0.054286 0.007474 7.26 日.000 
RAGVEXP 0.16748 0.04427 3.78 了.001 
Share 282 .75 48.76 5.80 0.000 


Si= S45.515 |. R=Scr 5 BA9%  R-Sqa(ad),. ££ 82.71% 


Analysis of Variance 


SOURCE DF SS MS F p 
Regression 3 35130228 7 11710076, 39;:35 ‘0:000 
Residual Error 21 6249321 297587 

Totial 24 41379549 





图 16-15 ”包括 3 个 自 变量 Poten、AdvExp 和 Share 模型 的 Minitab 输出 


在 可 供 使 用 的 数据 已 知 时 ， 我 们 如 何 才 能 求 得 一 个 具有 最 佳 效 果 的 和 估计 的 回归 方程 呢 ? 一 个 方法 是 计算 所 有 
可 能 的 回归 方程 。 也 就 是 说 ， 我 们 要 建立 8 个 单 变量 的 估计 的 回归 方程 (每 一 个 回归 方程 对 应 一 个 自 变量 )，28 
个 两 个 变量 的 估计 的 回归 方程 (从 8 个 变量 中 每 次 取 2 个 的 组 合 数 )， 等 等 。 对 Cravens 数据 ， 总 共有 255 个 包含 
一 个 或 一 个 以 上 自 变量 的 不 同 的 估计 的 回归 方程 可 用 于 数据 拟 合 。 

现在 ,我 们 已 经 拥有 一 些 更 出 色 、 更 有 效 的 计算 机 软件 包 ， 它 能 计算 出 所 有 可 能 的 回归 方程 。 但 是 ， 这 样 一 
来 就 要 涉及 大 量 的 计算 ， 并 且 要 求 模型 设计 者 审查 大 量 的 计算 机 输出 结果 ， 显 然 大 部 分 的 输出 结果 都 与 不 好 的 模 
型 相 联 系 。 统计 学 家 们 更 喜欢 用 系统 的 方法 从 全 部 自 变 量 中 选择 一 部 分 自 变量 ， 用 这 一 部 分 自 变 量 就 能 得 到 最 优 
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的 估计 的 回归 方程 。 在 下 一 节 ， 我 们 将 介绍 几 个 比较 通用 的 方法 。 


16.4 变量 选择 方法 


在 这 一 节 ， 我 们 将 讨论 4 种 变量 选择 方法 ( variable selection procedure) : 逐步 回归 ， 前 向 选择 ， 后 向 消 元 和 
最 佳 子 集 回 归 。 已 知 所 有 可 能 的 自 变量 的 数据 集 ， 我们 可 以 使 用 这 4 种 方法 去 确认 哪些 自 变量 能 给 出 最 佳 的 回归 
模型 。 前 3 种 方法 都 是 反复 迭代 的 方法 ， 在 每 一 步 只 增加 或 者 删除 一 个 自 变 量 ， 并 对 新 的 回归 模型 进行 评价 。 这 
一 迭代 过 程 连续 不 断 地 进行 下 去 ， 直 到 结束 准则 表明 : 用 这 种 方法 已 不 能 找到 一 个 更 好 的 模型 为 止 。 最 后 一 种 方 
法 《最 佳 子 集 回 归 ) 不 是 单 变量 一 次 性 方法 ， 这 种 方法 要 对 包含 不 同 的 自 变量 子 集 的 回归 模型 进行 评价 。” 
在 逐步 回归 ， 前 向 选择 和 后 向 消 元 方法 的 每 一 步 中 ， 是 增加 一 个 自 变量 到 回归 模型 上 ,还 是 从 回归 模型 中 删 
除 二 个 自 变量 ， 选 择 自 变量 的 准则 是 我 们 在 第 16. 2 节 中 介绍 的 F 统 计量。 例如， 假设 我 们 考虑 增加 x, 到 包含 x 
的 模型 上 或 者 从 包含 x, 和 x, 的 模型 中 删除 x,。 为 了 检验 增加 或 者 删除 的 自 变 量 *, 在 统计 上 是 否 显 著 ， 我们 提出 的 
原 假设 和 备 择 假 设 表示 成 如 下 形式 。 
Ho:B. = 0 
H,:B; #0 
在 第 16.2 节 ， 我们 给 出 了 下 面 的 统计 量 [ 见 式 (16-10) |]: 
SSE(w, ) — SSE(x, ,x; ) 


I 
ged SSE(GWR 和 SS ) 


让 一 六 一 也 
我 们 可 以 利用 这 个 统计 量 作为 一 个 准则 ， 该 准则 能 确定 模型 中 六 的 存在 是 否 会 引起 误差 平方 和 有 一 个 显著 的 
减少 。 对 应 这 个 下 统计 量 的 p- 值 也 是 一 个 准则 ， 我 们 能 利用 这 个 准则 来 确定 一 个 自 变量 是 应 该 增加 到 回归 模型 
上 , 还 是 应 该 从 回归 模型 中 删除 。 通 常 应 用 的 拒绝 法 则 是 : 如 果 p- 值 所 a， 则 拒绝 所。 


16. 4. 1 逐步 回归 


”逐步 回归 方法 的 每 一 步 都 是 从 确定 已 经 在 模型 中 的 自 变 量 是 否 应 该 被 删除 开始 。 为 此 ， 首 先 对 已 经 在 模型 中 
的 每 一 个 自 变量 计算 统计 量 和 对 应 的 p- 值 。 为 了 确定 一 个 自 变 量 是 否 应 该 从 模型 中 被 删除 的 显著 性 水 平 w， 在 
Minitab 输出 中 被 表示 为 “hlpha to,remove”。 如 果 有 上 自 变量 的 p- 值 大 于 “Alpha io remove”， 则 具有 最 大 p- 值 的 自 变 
量 应 该 从 模型 中 被 删除 ， 并 且 逐 步 回归 方法 开始 新 的 一 步 。 

如 果 没 有 自 变 量 能 从 模型 中 被 删除 ， 那 么 逐步 回归 方法 将 试图 使 另 一 个 目 变 量 进 和信 模型。 为 此 ， 首 先 对 没有 
在 模型 中 的 每 一 个 自 变 量 计算 下 统计 量 和 对 应 的 P- 值 。 为 了 确定 一 个 目 变量 是 否 应 该 进入 模型 的 显著 性 水 平 a， 
在 Minitab 输出 中 被 表示 为 “Alpha to enter”。 如 果 有 自 变量 的 p: 值 小 于 或 等 于 “4lpha to enter”， 则 具有 最 小 p- 值 
的 自 变量 将 进入 模型 。 接 照 这 种 方式 将 逐步 回归 过 程 继续 进行 下 去 ， 直 到 没有 一 个 自 变 量 能 从 模型 中 被 删除 ， 或 
者 没有 一 个 自 变量 能 被 增加 到 模型 上 为 止 。 

图 16-16 给 出 了 对 Cravens 数据 应 用 Minitab 逐步 回归 程序 得 到 的 结果 ，“ Alpha to remove” 和 和 “Alpha to enter” 
的 值 都 取 作 0.05。 进行 四 步 以 后 ,逐步 回归 程序 结束 。 根 据 Minitab 逐步 回归 程序 得 到 的 估计 的 回归 方程 是 

Y = 一 1441.93 +9.2Accounts+0.175AdyExp + 0.038 2Poten + 190Share 

在 图 16:16 中 我 们 还 注意 到 ，s = VMSE 从 最 佳 单 变量 ( 仅 含 有 一 个 自 变 量 Accounts》 模型 的 881， 经 过 四 步 
以 后 减少 到 454s R-Sg 的 值 从 56. 85% 增 加 到 90.04% ， 并且 被 推荐 的 估计 的 回归 方程 的 R-Sq (adj) 的 值 是 
88.05% 。 z 


昌 、 变 量 选 择 方 法 在 建 模 的 最 初 阶段 对 我 们 特别 有 帮助 ， 但 是 这 些 方法 不 能 代替 分 析 工 作者 的 经 验 和 作出 的 判断 。 
电 在 已 知 自 变量 个 数 的 情况 下 ， 因 为 逐步 回归 方法 并 不 考虑 每 一 种 可 能 的 自 变 量 组 台子 集 ， 所 以 未 必 会 选择 具有 最 大 R-Sq 值 的 估计 
的 回归 方程 。 


410 商务 与 经 济 统计 


综 上 所 述 ， 逐 步 回归 方法 的 每 一 步 ， 首 先 要 考虑 的 是 查看 一 下 是 否 有 哪个 自 变量 能 从 当前 的 模型 中 被 删除 : 
如 果 没 有 一 个 变量 能 从 模型 中 被 删除 ， 那 么 逐步 回归 方 
法 要 查看 一 下 是 否 有 哪个 不 在 当前 模型 中 的 自 变 量 能 增 
加 到 模型 里 来 。 由 于 逐步 回归 方法 的 特性 ， -不 自 变量 Response is Sales on 8 predictors, with N = 25 


Alpha-to-Enter: 0.05 Alpha-to-Remove: 0.05 


可 能 在 回归 过 程 的 某 一 步 进 入 模型 ， 而 在 下 一 步 这 个 自 Step 1 2 3 4 
变量 又 可 能 从 模型 中 被 删除 ， 但 是 在 稍 后 的 菜 一 步 它 又 | constant 709.32 50.29 -327-24 -1441.93 
可 能 重新 进入 模型 。 当 没有 自 变 量 能 从 模型 中 被 删除 或 ，| Accounts 21.7 19.0 15.6 9.2 
者 没有 自 变量 能 进 人 到 模型 里 来 时 ， 逐 步 回归 方法 停止 。 | py ， 0 000 000 0 00 
16. 4 2 前 向 选择 en a 

前 向 选择 方法 从 模型 中 没有 自 变量 开始 。 这 一 方法 | ?Valve 0.000 -0.000 


使 用 与 逐步 回归 为 了 确定 一 个 变量 是 否 应 该 进入 模型 同 | Poten 0.0219 
样 的 程序 来 增加 变量 ， 并 且 一 次 只 能 增加 一 个 变量 。 然 ，| TI -Value po 
而 ,一 旦 一 个 自 变量 进入 到 模型 中 ， 前 向 选择 方法 就 不 

允许 再 将 这 个 变量 从 模型 中 删除 。 当 不 在 模型 中 的 每 一 | -ss 

个 自 变 量 的 p- 值 全 都 大 于 “Alpha to enter” 时 ， 则 前 向 选 | P-value 





择 过 程 结 束 。 S 881 
利用 Minitab 前 向 选择 方法 得 到 的 估计 的 回归 方程 是 | R eg 4s) 34'97 
yY =—1441.93 + 9.2Aecounts + 0. 175AdvExp Mallows Cp ”67.6 


+ 0. 038 2Poten + 190Share 
于 是 ， 对 于 Cravens 数据 ， 当 “Alpha to enter” 的 值 取 
0.05 时 ， 前 向 选择 方法 与 逐步 回归 方法 得 到 完全 相同 的 估计 的 回归 方程 。 


16.4.3 后 向 消 元 

后 向 消 元 方法 从 包含 所 有 自 变量 的 模型 开始 。 这 一 方法 使 用 与 逐步 回归 为 了 确定 一 个 变量 是 否 应 该 从 模型 中 
被 删除 同样 的 程序 来 删除 变量 ， 并 且 一 次 只 能 删除 一 个 变量 。 然 而 ， 一 旦 一 个 自 变 量 从 模型 中 被 删除 ， 后 向 消 元 
方法 就 不 允许 这 个 自 变量 在 下 一 步 再 重新 进入 模型 。 当 模型 中 自 变量 的 p- 值 没有 一 个 大 于 “Alpha to remove” 时 ， 
则 后 向 消 元 过 程 结 束 。 

对 于 Cravens 数据 ， 当 “Alpha io remove” 的 值 取 0.05 时 ， 利 用 Minitab 后 何 消 元 方法 得 到 的 估计 的 回归 方 
程 是 


图 16-16 Cravens 数据 的 Minitab 逐步 回归 输出 


YY=-1312+3.8Time +0.0444Poten +0.152AdvExp + 259Share | 

将 使 用 后 向 消 元 方法 得 到 的 估计 的 回归 方程 与 使 用 前 向 选择 方法 得 到 的 估计 的 回归 方程 进行 比较 ， 我 们 看 到 
在 这 两 个 方程 中 有 3 个 自 变量 一 一 AdvExp、Poten 和 Share 是 共同 的 。 然 而 ， 后 向 消 元 方法 包含 了 自 变 量 Time， 替 
代 了 前 向 选择 方法 的 自 变 量 Aecounts。 : 

前 向 选择 方法 和 后 向 消 元 方法 是 建 模 过 程 的 两 个 极端 情形 。 前 向 选择 方法 从 模型 中 没有 自 变量 开始 ， 并 且 每 
次 只 增加 一 个 变量 。 而 后 向 消 元 方法 从 包含 所 有 自 变量 的 模型 开始 ， 并 且 每 次 只 删除 一 个 变量 。 两 种 方法 可 能 得 
到 同样 的 估计 的 回归 方程 ， 但是， 正如 我 们 在 Cravens 数据 的 例子 中 看 到 的 那样 ， 两 种 方法 也 可 能 得 到 不 同 的 佑 
计 的 回归 方程 。 决 定 利用 哪 一 个 估计 的 回归 方程 将 是 留 给 我 们 讨论 的 话题 。 最 后 ， 必 须 运 用 分 析 人 员 的 判断 力 。 
我 们 接着 要 讨论 的 最 佳 子 集 模型 的 建立 过 程 ， 在 作出 最 终 决策 之 前 就 给 出 了 补充 的 建 模 信息 。” 





加 前 向 选择 方法 和 后 向 消 元 方法 可 能 会 得 出 不 同 的 模型 。 
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16. 4.4 最 佳 子 集 回归 


逐步 回归 、 前 向 选择 和 后 向 消 元 都 是 通过 每 次 增加 或 者 删除 一 个 自 变量 来 选择 回归 模型 的 方法 。 对 于 一 组 已 
知 的 变量 ; 没有 一 种 方法 能 保证 我 们 将 得 到 最 佳 的 模型 。 对 这 些 每 次 一 个 变量 的 单 变量 方法 认真 分 析 研 究 后 ， 为 
我 们 选择 一 个 好 的 回归 模型 提供 了 有 益 的 启示 。 

一 些 计 算 机 软件 包 使 用 被 称 为 “最 佳 子 集 回归 ”的 程序 ， 对 于 一 组 给 定 的 自 变 量 ， 最 佳 子 集 回归 程序 能 使 软 
件 包 的 使 用 者 得 到 最 佳 回归 模型 。Minitab 就 有 这 样 的 程序 。 图 16-17 是 对 Cravens 数据 集 应 用 最 佳 子 集 回归 程序 
得 到 的 一 部 分 计算 机 输出 。” 

在 图 16-17 的 输出 中 ， 识 别 出 两 个 最 佳 的 单 变 量 估 计 的 回归 方程 ， 两 个 最 佳 的 两 变量 估计 的 回归 方程 ， 两 个 
最 佳 的 三 变量 估计 的 回归 方程 ， 等 等 。 对 于 任 
一 组 预测 变量 ， 用 于 确定 哪 一 个 估计 的 回归 方 
程 是 最 佳 的 准则 是 判定 系数 (R-Sqj 的 数值 。 
例如 ， 因 为 R-Sq =56. 8% ， 所 以 得 到 了 仅 含 有 
1 个 自 变 量 Accounts 的 最 佳 的 估计 的 回归 方程 ; 
因为 R-Sq =77. 5% ， 所 以 得 到 了 含有 2 个 自 变 
量 AdvExp 和 Accounts 的 最 佳 的 估计 的 回归 方 
程 ; 因为 R-Sq =84.9% ， 所 以 得 到 了 含有 3 个 
自 变量 Poten、AdvExp 和 Share 的 最 佳 的 估计 
的 回归 方程 。 对 于 Cravens 数据 ， 含 有 6 个 自 
变量 : Time，Poten，AdvExp，Share， Change 
和 Accounts 的 模型 的 修正 判定 系数 
(R-Sq (Adj) = 89.4% ) 是 最 大 的 。 可 是 ,， 含 
有 4 个 目 变 量 (Poten，AdvExp，Share 和 Ac- 
counts) 的 最 佳 模型 有 一 个 差不多 大 小 的 修正 
判定 系数 (R- Sqg (Adj) =88.1%)。 在 所 有 
其 他 条 件 相同 的 情形 下 ， 一 个 包含 较 少 自 变 量 
的 比较 简单 的 模型 通常 会 受到 人 们 的 喜爱 。 ey 


16.4. 5 “作出 最 终 的 选择 
到 目前 为 止 ， 对 Cravens 数据 已 经 完成 的 分 析 为 我 们 选择 一 个 最 终 的 模型 做 出 了 很 好 的 准备 ， 但 是 在 作出 最 终 选 
择 前 ， 我 们 还 应 进行 更 多 的 分 析 。 正 如 我 们 在 第 14 章 和 第 15 章 中 已 经 注意 到 的 那样 ， 我 们 应 该 对 残 差 做 出 更 细致 的 
分 析 。 在 选择 模型 时 ， 我 们 希望 残 差 图 看 起 来 要 近似 于 一 条 水 平 带 。 我 们 假设 ， 残 差 满 足 这 一 要 求 ， 没 有 问题 ， 并 且 和希 
望 使 用 最 佳 子 集 程序 的 结果 帮助 我 们 选择 模型 。 表 16-7 选择 包含 ACCOUNTS、AdvExp、Poten 和 Share 的 模型 
最 佳 子 集 方 法 已 经 向 我 们 表明 了 最 佳 的 4 模型 自 变 量 修正 判定 系数 
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变量 模型 包含 了 4 个 自 变量 ， 即 Poten 、AdvExp、 ] Accounts 55.0 
Share 和 Accounts。 这 个 最 佳 模型 恰好 也 是 利 用 2 AdvExp, Accounts 75.5 
逐步 回归 方法 得 到 的 包含 4 个 自 变 量 的 模型 。 . Rope he 72.3 
表 16-7 对 于 我 们 作出 最 终 的 选择 是 有 帮助 的 。 + Fen np Po 80.3 
该 表 显 示 出 : 芋 述 4 个 自 变量 的 一 部 分 或 者 全 部 5 Poten, AdvExp, Share 8227 

6 Poten ，AdvExp，Share，Accounts 88. 1 


组 成 的 各 种 可 能 的 模型 。 


日 完整 的 最 佳 子 集 输 出 还 包括 Mallows Cp 统计 量 的 值 : 更 高 级 的 教科 书 讨论 这 不 统计 量 的 应 用 。 
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从 表 16-7 中 我 们 看 到 ， 只 包含 2 个 自 变量 Accounts 和 AdvExp 的 模型 是 一 个 好 的 模型 ， 它 的 修正 判定 系数 是 
R-Sq(Adj) =75.5% ， 而 包含 了 全 部 4 个 自 变 量 模型 的 修正 判定 系数 仅仅 改善 了 12.6 个 百分点 = 例如 ， 如 果 市 
场 潜力 (Poten) 这 个 自 变量 的 度量 很 困难 ， 那 么 我 们 宁愿 选择 一 个 比较 简单 的 两 变量 模型 。 然 而 ， 如 果 数 据 很 容 
易 取 得 ， 并 且 要 求 销 售 收入 有 一 个 较 高 的 预测 精度 ， 模 型 的 设计 者 显然 应 该 更 喜欢 包含 全 部 4 个 自 变 量 的 模型 。 


1, 逐步 回归 方法 要 求 “Alpha to remove” 的 值 大 于 或 等 于 “Alpha to enter” 的 值 ， 这 一 要 求 是 为 了 防止 同一 个 
变量 在 同一 步 中 先 从 模型 中 被 删除 ， 然 后 再 次 进入 模型 。 

2. 我 们 在 应 用 这 一 节 介 绍 的 任 一 种 方法 时 ， 自 变量 的 通 数 都 可 以 用 来 生成 新 的 自 变 量 。 例如， 如 果 我 们 希望 
用 xixi 表 示 模 型 中 的 交互 作用 ,我们 将 利用 自 变 量 xi 和 %* 的 数据 生成 新 的 自 变 量 z=xi%; 的 数据 。 

3. 每 次 只 能 增加 或 者 删除 一 个 变量 的 这 些 方 法 ， 没 有 一 个 方法 能 和 保证 识别 出 最 佳 的 回归 模型 。 但 是 ， 这 些 方 
法 都 是 得 到 好 的 模型 的 杰出 方法 一 一 特别 地 ， 当 存在 轻微 的 多 重 共 线性 时 。 











“Alpha to enter” 的 值 取 0.05。 
d. 利用 后 向 消 元 方法 建立 最 佳 的 估计 的 回归 方程 。 
“ Alpha io remove” 的 值 取 0.05， 
e. 利用 最 佳 子 集 回归 方法 建立 最 佳 的 估计 的 回归 
方程 。 


应 用 
16. 一 项 研究 提供 了 一 些 变量 的 数据 ， 这 些 变量 可 能 
与 制造 业 工 人 已 经 失业 的 周 数 有 关 。 在 研究 中 ， 应 
变量 (Weeks) 被 定义 为 由 于 裁员 ， 制 造 业 工人 已 
经 失业 的 周 数 。 在 研究 中 用 到 的 自 变量 如 下 所 示 。 


18. Jeff Sagarin 自 1985 年 以 来 一 直 为 《今日 美国 )》 杂 
2 ee 志 提 供 体育 评级 。 在 棒球 比赛 中 ， 他 预测 的 RPC 
二 二 i (分 / 场 ) 统计 量 考 虑 到 全 部 球员 的 进攻 统计 ， 并 
waricd 。 庆 且 他 声称 : 这 是 球员 真实 的 进攻 价值 的 最 好 的 度 
Ha ” ”虚拟 变量 。 如 果 是 户主 ， 取 值 为 1; 否则 ， 取 值 量 。 下 面 给 出 了 纽约 洋基 队 (New York Yankees ) 
为 0 的 20 名 球员 ， 在 美国 职业 棒球 大 联盟 2005 年 赛季 
To 中 的 RPG 和 各 种 各 样 的 进攻 统计 数据 ( USA Today 
We website，2006.3.3)。 列 标题 定义 如 下 : RPG， 蔬 
测 每 场 比 赛 得 分 ; H3 | 安打; 2Bs 二 双打; 3B， 三 
PI nd 取 值 为 各 打 、 币 计 。 未 矶 和 宙 内 入， 让 日 。 0 
人 球 后 安全 上 笃 〔 步 行 ); S0， 三 击 不 中 出 局 ; SB， 
可 供 我 们 使 用 的 数据 保存 在 本 书 所 附 光 可 名 为 偷 例 ; CS， 封 杀 偷 例 ; OBP， 上 笃 率 ; SLG， 长 打 
Layoffs 的 文件 中 。 率 ,; AVG， 安 打率 。 
a， 建立 最 佳 的 单 变量 的 估计 的 回归 方程 。 设 RPG 统计 量 为 应 变量 。 
b. 利用 逐步 回归 方法 建立 最 佳 的 估计 的 回归 方程 。 a， 建 立 最 佳 的 单 变量 的 个 计 的 回归 方程 。 
“Alpha to enter” 和 “Alpha to remoe ”的 值 b. 利用 本 节 介 绍 的 方法 ， 建 立 一 个 能 用 来 预测 球 
取 0.05。 员 RPG 的 最 佳 的 多 元 估计 的 回归 方程 。 
c. 利用 前 向 选择 方法 建立 最 佳 的 估计 的 回归 方程 。 
球员 RPG H 2B 3B HB RBI BB SO SB CS OBP SLG AVG 
D jeter 6.5] 202 25 5 19 70 FH 117 14 3 0. 389 0.450 0. 309 
H Matsui 6. 32 192 45 3 23 116 63 78 2 2 0.367 0.496 0. 305 
A Rodriguez 9, 06 194 29 1 48 130 91 139 2]1 6 0. 421 0.610 0. 321 
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( 续 ) 

球员 RPG H 2B 3B HB RBI BB SO SB CS OBP SLG AVG 
G Sheffield 6. 93 170 27 0 34 123 78 76 10 多 0.3791 0.512 0. 291 
R Cano 5.01 155 34 二 14 62 16 68 ] 5 0.320 0.458 0. 297 
B Williams 4. 14 121 19 l 过 64 sr ) {9 1 4 0.321 0.367 0. 249 
J」 Posada bi A 124 23 0 19 71 606 94 ] 0 0. 352 0.430 0. 262 
J Giambi 9. 11 113 14 0 32 87 108 109 0 0 0. 440 0.535 0.271 
T Womack 2.91 82 8 l 0 15 12 49 27 5 0.276 0.280 0. 249 
T Martinez 5.08 73 9 0 17 49 38 54 - 0 0. 328 0,439 0. 241 
M Bellhorn 4.07 63 20 0 8 30 4 112 了 0 0.324: 01367 0. 210 
R Sierra 史记 39 12 0 四 29 9 41 0 0 0.265 0,371 0. 229 
J Flaherty 1. 83 2 5 0 2 11 6 26 0 0 0.200 0.252 0. 165 
B Crosby 3. 48 27 0 ] 1 6 4 14 本 1 0;304 0.327 0. 276 
M Lawton Si IS 6 0 0 2 4 2 8 ] 0 0,2063 (250 0. 125 
R Sanchez 3. 36 12 | 0 0 2 2 3 0 1 0.326 “0. 302 0, 279 
A Phillips .3 6 十 0 ] 二 ] 13 0 0 Ol O325 0. 150 
M Cabrera 1 9 4 0 0 0 0 0 2 0 0 O21 TOs21] 07211 
R Johnson 3.44 4 2 0 0 0 | 加 0 0 0Q;300 i333 0, 222 
F Escalona | 了 ] 0 0 2 ] 4 0 0 0 375i - .08357 0, 286 


16.5 实验 设计 的 多 元 回归 方法 


在 第 15.7 节 中 ， 我 们 已 经 讨论 了 虚拟 变量 在 多 元 回归 分 析 中 的 应 用 。 在 这 一 节 中 我 们 将 说 明 ， 在 多 元 回归 广 
程 中 如 何 使 用 虚拟 变量 得 到 解决 实验 设计 问题 的 另 一 种 方法 。 ， 。 表 16-8 15 名 工人 生产 的 过 滤 系 统 的 数量 


在 第 13 章 中 我 们 已 经 介绍 了 Chemitech 公司 的 完全 随机 化 设 方法 A 方法 B 方法 C 
计 ， 为 了 说 明 实 验 没 计 的 多 元 回归 方法 , 我 们 将 对 Chemiteoh,，， 58 。， 。 58 
公司 应 用 这 一 方法 。 64 69 57 

让 我 们 回忆 一 下 ，Chemitech 公司 开发 了 一 种 新 的 城市 供 55 71 59 
水 过 滤 系 统 。 新 过 滤 系 统 的 部 件 需要 从 几 家 供应 商 处 购买 ， 66 64 47 
然后 由 Chemitech 公司 设 在 南 加 州 哥 伦比 亚 市 的 工厂 装配 这 些 二 49 


部 件 。 有 三 种 不 同 的 装配 方法 ,分 别称 为 方法 A、 方 法 B 和 方法 C。Chemitech 公司 的 管理 人 员 想 要 确定 : 哪 种 装 
配方 法 能 使 每 周 生 产 的 过 滤 系 统 数量 最 多 。 

抽取 15 名 工人 组 成 一 个 随机 样本 ， 并 且 对 每 一 种 装配 方法 随机 地 指派 5 名 工人 。 每 名 工人 装配 的 过 滤 系 统 的 
数量 如 表 16-8 所 示 。 

三 种 装配 方法 所 生产 的 过 滤 系 统 的 样本 均值 如 下 所 示 。 


装配 方法 平均 生产 过 滤 系 统 的 数量 
A 62 
B 66 
人 52 


虽然 方法 B 似乎 比 其 他 方法 能 够 带 来 更 高 的 生产 率 ， 但 我 们 的 问题 是 : 观测 到 的 三 个 样本 均值 的 差异 是 否 足 
以 使 我 们 断定 ， 对 应 于 三 种 装配 方法 的 总 体 均 值 是 不 同 的 。 

为 了 用 回归 方法 处 理 这 一 问题 ， 我 们 从 定义 虚拟 变量 开始 ， 这 里 的 虚拟 变量 表示 使 用 的 是 哪 一 种 装配 方法 。 
因为 Chemitech 问题 有 三 种 装配 方法 或 处 理 ， 所 以 我 们 需要 定义 两 个 虚拟 变量 一般 情 况 下 ， 如 果 被 研究 的 因素 
有 上 个 不 同 的 水 平 或 处 理 ， 那 么 我 们 需要 定义 六 1 个 虚拟 变量 。 对 于 Chemitech 实验 ， 我 们 定义 的 两 个 虚拟 变量 A 
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和 了 如 表 16-9 所 示 。 
我 们 可 以 利用 虚拟 变量 将 每 周 生 产 的 过 滤 系统 数量 y 与 工人 使 用 的 装配 方法 联系 起 来 。 


E(y) = 每 周 生 产 的 过 滤 系 统 的 期 望 值 表 16-9 Chemitech 问题 的 虚拟 变量 
= Bo +BA+B,B A B 
于 是 ， 如 果 我 们 对 使 用 方法 C 的 一 名 工人 每 周 装 1 0 观测 值 与 方法 A 有 关 
配 的 过 滤 系 统 的 期 望 值 感 兴趣 ， 我们 的 程序 是 指定 虚 0 | 观测 值 与 方法 B 有 关 
拟 变量 A 和 B 的 数值 ， 使 得 A = B=0。 那 么 多 元 回归 0 0 观测 值 与 方法 C 有 关 
Sd hi 一 雪 16-10_Chemitech 问题 完 全 了 机 化 设计 多 输入 如 一 
我 们 能 把 B, 看 作 是 使 用 方法 C 的 一 名 工人 每 周 装 过 
配 的 过 滤 系 统 的 期 望 值 。 换 名 话说 ，B, 是 使 用 方法 C 1 0 64 
的 一 名 工人 每 周 装配 的 过 滤 系 统 的 平均 值 。 I 0 55 
接 下 来 ,我 们 考虑 使 用 其 他 装配 方法 的 多 元 回归 1 0 66 
方程 的 形式 。 对 于 装配 方法 A， 虚 拟 变 量 的 值 是 A =1 : or 
和 B =0 于 是 有 0 ] 58 
E(y) = Bs +pB: x1+B, xX0=B, +B, : : 
对 于 装配 方法 B， 我们 令 A=0 和 B=1， 于 是 有 机 
Bty) =B, +B, x0 +B, x1 =B+pB, 0 1 68 
我 们 看 到 ，B。 + B, 是 使 用 方法 A 的 一 名 工人 每 周 0 0 48 
装配 的 过 滤 系 统 的 平均 值 ，B, +B, 是 使 用 方法 B 的 一 名 0 0 57 
工人 每 周 装配 的 过 滤 系 统 的 平均 值 。 3 和 
现在 我 们 希望 估计 系数 B,。、B, 和 B,， 并 且 对 于 每 ; : 和 


一 种 方法 ， 要 求 给 出 每 周 装配 的 过 滤 系 统 平均 值 的 知 

计 。 表 16-10 是 由 A 册 和 和 的 组 观测 值 组 成 的 样 The regression eauation is 

本 数据 。 图 16-18 是 对 应 的 Minitab 多 元 回归 输出 。 我 |y = 52.0 + 10.0 A + 14.0B 

们 看 到 ， Po、 有 和 B; 的 估计 值 是 bo = 52、 b, = 10 和 Predictor Ce SE Coef Ti P 
b, =14。 于 是 ， 对 于 每 一 种 方法 ， 每 周 装 配 的 过 滤 系 | Constant “52.000 2.380 21.84 0.000 


.加 , ep A 10 ,000 3.357 997 | OQl2 
统 平均 值 的 最 佳 估计 如 下 所 示 : B 14.000 ”3.367 ”4.16 0.001 
装配 方法 E(y) 的 估计 值 S = 5.32291 R=8qg = 1 60559%- RSaladj) =,53.9% 
友 如 + 有 =52 +10=62 
Analysis of Variance 
B by =52+14=66 
c b =$2 SOURCE DF SS F P 
Regression 2 520.00 9.18 ,0.004 
| Residual Error 12 340.00 
注意 ， 从 回归 分 析 中 得 到 的 每 一 种 装配 方法 生产 | rotal 14 860.00 





的 过 滤 系 统 平均 值 的 估计 ， 与 前 面 给 出 的 样本 均值 是 
相同 的 。 
现在 让 我 们 来 看 看 ， 我 们 如 何 才能 利用 多 元 回归 分 析 的 输出 ， 对 这 三 种 装配 方法 生产 的 过 滤 系 统 平均 值 之 间 
的 区 别 ， 进 行 ANOVA 检验 。 首 先 我 们 注意 到 ， 如 果 在 这 些 平均 值 之 间 没 有 区 别 ， 那 么 有 
方法 A 的 E(y) -方法 C 的 下 (y) = 0 
方法 BB 的 E(y) = 方法 CC 的 严 (Y) =0 
因为 对 于 方法 C, 上 (y) 等 于 Bu 对 于 方法 A，E(y) 等 于 Bo +B,， 所 以 方法 A 与 方法 C 之 间 的 差 等 于 (Bo + 
Bi) 一 Bs=Bi。 又 因为 对 于 方法 B，B(y) 等 于 B。+B,， 所 以 方法 B 与 方法 Ci 之 间 的 差 等 于 (Bs +B,) -Bs =B,。 我 


图 16-18 ”Chemitech 问题 的 完全 随机 化 设计 的 多 元 回归 输出 
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们 将 有 结论 : 如 果 pB, =0 和 B, =0， 那 么 三 种 装配 方法 没有 差异 。 于 是 ,检验 三 种 装配 方法 均值 差异 的 原 假设 可 以 
叙述 如 下 。 
Hu :B! = B, = 0 

假设 显著 性 水 平 是 a =0.05。 我 们 还 记得 ， 为 了 检验 这 种 类 型 的 回归 关系 显著 性 的 原 假 设 ， 我 们 利用 总 体 显 
著 性 的 五 检验 。 在 图 16-18 的 Minitab 输出 中 ， 对 应 于 下 =9. 18 的 p- 值 是 0.004。 因 为 p- 值 =0.004<a=0.05， 所 
以 我 们 拒绝 原 假设 H,: B, =B, =0， 并且 得 到 结论 ， 三 种 装配 方法 的 均值 是 不 同 的 。 因 为 检验 表明 ， 多 元 回归 
关系 是 显著 的 ， 所 以 可 以 进行 ;检验 来 确定 个 别 参 数 B, 和 BB 的 显著 性 。 在 a=0.05 的 显著 性 水 平 下 ，Minitab 输出 
的 Pp- 值 分 别 是 0;012 和 0.001， 这 就 表明 我 们 可 以 拒绝 Ho: B, =0 和 Huo: B, =0。 于 是 ， 两 个 参数 在 统计 上 是 显著 
的 ， 从 而 ,我 们 也 可 以 得 出 这 样 的 结论 : 方法 A 与 方法 C 的 均值 是 不 同 的 ， 以 及 方法 B 与 方法 C 的 均值 是 不 
同 的 。 





方法 a. 在 a=0.05 的 显著 性 水 平 下 ,检验 4 种 不 同 涂 

妇 20， 考虑 包括 A、B、C 和 了 四 种 处 理 的 一 个 完全 随机 A dae 0 
化 设计 。 写 出 一 个 能 用 来 分 析 该 完全 随机 化 设计 eet we tt 
数据 的 多 元 回归 方程 。 对 所 有 的 变量 给 出 定义 。 计算 机 输出 中 得 到 的 平均 干燥 时 间 是 多 少 ? 

22， 对 于 因素 A 有 2 水平， 因素 B 有 3 水平 的 一 个 两 因 26. 在 杂志 上 刊登 广告 的 尺寸 大 小 和 广告 的 设计 方案 ， 
素 设计 ， 写 出 一 个 能 用 来 分 析 该 两 因素 设计 数据 人 
的 多 元 回归 方程 。 对 所 有 的 变量 给 出 定义 。 让 

广告 目录 的 公司 设计 了 一 种 因子 实验 。 考 虑 3 种 广 

告 的 设计 方案 和 2 种 刊登 广告 的 尺寸 ， 得 到 的 数据 

24. 对 于 4 种 不 同 的 涂料 ,广告 介绍 它们 的 干燥 时 间 是 站 
机 隔 物 。 汐 证 加 捉 愧 同 的 和 洁 ， 直 作 一 各 从 者 失 J 
测 5 个 样本 。 对 于 每 一 个 样本 ， 记 录 了 从 涂 上 第 一 pp 


道 涂料 后 经 过 充分 干燥 直到 可 以 再 涂 第 二 道 涂料 
的 时 间 (单位 : 分 钟 )。 得 到 的 数据 如 下 表 所 示 。 


涂料 1 涂料 2 涂料 3 涂料 4 
128 144 133 150 
137 133 143 142 
135 142 137 135 
124 146 136 140 
141 130 131 153 





16.6 自 相关 性 和 杜 宾 -瓦特 森 检 验 


通常 ， 在 工商 管理 和 经 济 学 的 回归 研究 中 ， 所 利用 的 数据 是 按时 间 顺 序 采集 的 。 我 们 用 7, 表示 y 在 时 期 


的 值 ， 而 y, 的 值 又 常常 要 依赖 于 y 在 以 前 时 期 的 值 。 在 这 种 情形 下 ， 我 们 说 在 数据 中 存在 自 相 关 性 ( autocorre- 
lation) ， 也 叫 序列 相关 (serial correlation) 。 如 果 y 在 1 时 期 的 值 依赖 于 y 在 1-1 时 期 的 值 ， 我 们 就 说 在 数据 中 
存在 一 阶 自 相 关 性 。 如 果 y 在 1 时 期 的 值 依赖 于 y 在 1t-2 时 期 的 值 ， 我们 就 说 在 数据 中 存在 二 阶 自 相关 性 ， 
等 等 。 

回归 模型 的 假定 之 一 是 模型 的 误差 项 是 独立 的 。 但 是 ， 当 数据 存在 自 相 关 性 时 , 违背 了 这 一 假定 。 在 一 阶 自 
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相关 性 情形 中 ，t 时 期 的 误差 项 s; 将 依赖 于 !- 1 时 期 的 误差 项 es -ii。 一 阶 自 相 关 性 的 两 种 情形 如 图 16-19 所 示 。 
图 16-19a 是 存在 正 自 相 关 性 的 情形 ; 图 16-19b 是 存在 负 自 相关 性 的 情形 。 当 存在 正 自 相关 性 时 ， 如 果 在 一 个 时 
期 有 一 个 正 的 残 差 ， 我 们 期 待 着 在 下 一 个 时 期 跟着 也 是 一 个 正 的 残 差 ; 如 果 在 一 个 时 期 有 一 个 负 的 残 差 ， 我 们 期 
待 着 在 下 一 个 时 期 跟着 也 是 一 个 负 的 残 差 ， y=-$ 7 起 

等 等 。 当 存在 负 自 相关 性 时 ， 如 果 在 一 个 时 
期 有 一 个 正 的 残 差 ， 我们 期 待 着 在 下 一 个 
时 期 跟着 一 个 负 的 残 差 ;然后 又 是 一 个 正 
的 残 差 ， 等 等 。 

”“” 当 数 据 存在 自 相 关 性 时 ， 如 果 我 们 根 
据 假 设 的 回归 模型 进行 统计 显著 性 检验 ， 
就 有 可 能 发 生 严 重 的 错误 。 因 此 ， 重 要 的 工 
a 有 i 和 





"EN b) 负 自 相关 性 
16-19 一 阶 自 相关 性 的 两 个 数据 集 





“假设 ， 误差 项 = 的 值 是 不 独立 的 并 且 
它们 相互 依赖 的 方式 如 下 。 
‘3 (16-16) 
这 里 ， p 是 一 个 绝对 值 小 于 1 的 参数 ， i 方差 为 5 的 独立 的 正 态 分 布 的 随机 变量 。 从 
式 (16-16) 中 我 们 看 到 ， 如 果 p =0， 那么 误差 项 e, 之 间 不 相关 ， 并 且 每 一 个 误差 项 s, 的 平均 值 都 是 0， 方差 都 是 
ds 在 这 种 情形 中 ， 不 存在 自 相关 性 ， 回归 模型 的 假定 被 满足 。 如 果 p >0， 则 存在 正 自 相关 性 ; 如 果 p <0， 则 存 
在 负 自 相关 性 。 这 两 种 情形 都 违背 了 回归 模型 误差 项 的 假定 。 
_ 自 相关 性 的 杜 宾 - 瓦特 森 检验 《Durbin- Watson test) 是 利用 残 差 来 确定 p =0 是 否 成 立 。 为 简化 杜 宾 - 瓦特 森 
检验 统计 量 的 记号 ， 我 们 用 。 =y, -7 表示 第 ;个 残 差 。 杜 宾 -瓦特 森 检 验 统 计量 的 计算 公式 如 下 。 





如 果 残 差 的 相 邻 值 彼此 之 间 相 距 比 较 近 ( 正 自 相关 性 ) ， 那 么 杜 宾 -瓦特 森 检验 统计 量 的 值 将 是 比较 小 
的 。 如 果 残 差 的 相 邻 值 彼此 之 间 相 上 距 比 较 远 ( 负 自 相关 性 ), 那么 杜 宾 -瓦特 森 检验 统计 量 的 值 将 是 比较 
大 的 。 

杜 宾 - 瓦特 森 检验 统计 量 的 取 值 范围 介 于 0~4， 并 且 在 0~ -4 之 间 还 有 两 个 值 表明 了 不 存在 自 相 关 性 的 范围 
杜 宾 和 瓦特 森 给 出 了 一 个 临界 值 表 ， 这 个 表 能 用 来 确定 ， 什 么 时 候 杜 宾 - 瓦特 森 检 验 统计 量 的 值 表示 存在 自 相关 
性 。 对 于 显著 性 水 平 a=0.05， 表 16-11 给 出 了 检验 自 相 关 性 假设 的 下 办 和 上 界 (外 和 由 ); 表示 观测 值 的 个 
oe 检验 的 原 假 设 始终 是 不 存在 自 相关 性 。 


Hosp=0 

检验 正 自 相关 性 的 备 择 假设 是 
? | H:p 痊 

检验 负 自 相关 性 的 备 择 假设 是 
H, :p< 0 


也 允许 进行 双边 检验 。 在 这 种 情形 中 ， 备 择 假设 是 
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H,:p¥0 






表 16-11 自 相关 性 的 杜 宾 - 瓦特 森 检验 的 临界 值 
&=0.05 的 和 员 u 的 显著 点 自 变量 的 个 数 














1 2 3 4 5 
n” dq. du dd ou qd ou dt el dt ou 
15 1. 08 1, 36 0.95 1, 54 0. 82 L175 0. 69 1.97 0. 56 04 
20 1. 20 1.41 1-E0 1, $54 1. 00 1.68 0. 90 1.83 0. 79 1.99 
25 1. 29 1. 45 2 1:39 1 1.66 1. 04 7 0.95 1. 89 
30 ,35 1.49 1. 28 有 1 1.65 1, 14 1,74 1,07 1, 83 
40 1.44 1. 54 1.39 1. 60 1.34 1.66 1.29 ly2 1.23 1.79 
50 1. 50 1. 59 1, 46 1. 63 1,42 1.67 1. 38 I 1. 34 
70 1. 58 1. 64 1.55 1,67 Lad 1. 70 1. 49 1. 74 1. 46 1. 28 
100 1.65 1.69 J..63 ed 1.61 1. 74 1. 59 1. 76 a3 1.78 





注 : 水 中 间 的 元 值 ， 为 线性 播 值 。 
说 明 : 表 中 的 值 是 自 相关 性 的 单 侧 杜 宾 - 瓦特 森 检 验 的 临界 值 。 对 于 自 相 关 性 的 双 侧 检验 ， 显 著 性 水 平 应 增加 开 倍 。 


图 16-20 说 明了 如 何 利用 表 16-11 中 的 尼 和 加 的 值 去 检验 自 相关 性 。 图 16-20a 说 明了 正 自 相关 性 的 检验 。 如 
果 d<d.， 我 们 的 结论 是 存在 正 自 相关 性 。 如 果 d.<d<d,， 我们 的 结论 是 杜 宾 - 瓦特 森 检 验 不 能 确定 是 否 存在 正 
自 相关 性 。 如 果 d > d,， 我 们 的 结论 是 没有 存在 正 自 相 关 性 的 任何 证 据 。 


b ) 负 自 相关 性 的 检验 








c ) 自 相关 性 的 双 侧 检验 
图 16-20 利用 杜 宾 -瓦特 森 统 计量 对 自 相关 性 的 假设 检验 


图 16-20b 说 明了 负 自 相关 性 的 检验 。 如 果 d >4 - d,， 我 们 的 结论 是 存在 负 自 相关 性 。 如 果 4 -d,<d<4 - 
d,， 我 们 的 结论 是 杜 宾 - 瓦特 森 检验 不 能 确定 是 否 存在 负 自 相关 性 。 如 果 d <4-d,， 我 们 的 结论 是 没有 存在 负 自 
相关 性 的 任何 证 据 。 

图 16-20c 说 明了 双 侧 检验 。 如 果 d < di 或 者 4 >4 - d,， 则 拒绝 H,， 我 们 的 结论 是 存在 自 相 关 性 。 如 果 d, < 
d<du 或 者 4-d,<d<4-d,， 我们 的 结论 是 杜 宾 - 瓦特 森 检 验 不 能 确定 是 否 存在 自 相关 性 。 如 果 d, <d <4 -d,， 
我 们 的 结论 是 没有 存在 自 相关 性 的 任何 证 据 。 
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如 果 显 著 的 自 相 关 性 被 识别 出 来 ， 我 们 应 考虑 假设 的 回归 模型 是 否 遗 漏 了 一 个 或 几 个 重要 的 自 变 量 ， 而 这 些 
遗漏 的 自 变 量 对 应 变量 有 显著 的 时 序 影 响 。 如 果 没 有 这 样 的 自 变 量 被 识别 出 来 ,那么 可 以 在 模型 中 引入 一 个 度量 
观测 次 数 的 自 变 量 ( 例 如 ; 对 于 第 一 次 观测 ， 这 个 变量 的 值 可 以 为 1 对 于 第 三 次 观测 ;这 个 变量 的 值 可 以 为 2， 
等 等 )， 这 样 做 将 有 助 于 消除 或 者 减少 自 相关 性 。 当 这 些 消 除 或 减少 自 相 关 性 的 尝试 不 起 作用 时 ， 我们 对 应 变量 
或 者 目 变量 进行 适当 的 变换 可 能 是 有 帮助 的 。 有 关 这 种 变换 的 讨论 能 在 更 高 级 的 回归 分 析 教 科 书 中 找到 。 

注意 ， 杜 宾 - 瓦特 条 临界 值 表 列 出 的 最 小 样本 容量 为 15。 理 由 是 当 样 本 容量 比较 小 时 ， 检 验 通常 是 缺乏 说 服 
力 的 。 事 实 上 ， 许 多 统计 学 家 认为 ， 为 了 使 检验 能 得 到 合理 的 结论 ， 样 本 容量 至 少 应 该 为 50。 





28. 参看 表 16=5 中 的 Cravens 数据 集 5 在 第 16;3 节 中 我 






佳 估计 的 回归 方程 的 几 个 概念 。 首 先 ， 我们 介绍 了 一 
般 线性 模型 的 概念 ， 并 利用 这 个 概念 说 明了 在 第 14 章 
和 第 15 章 中 讨论 的 方法 如 何 被 推广 去 处 理 曲 线 关 系 和 
交互 作用 。 然 后 ， 我 们 讨论 了 如 何 利 用 与 应 变量 有 关 
的 变换 去 说 明 处 理 误差 项 非常 数 方差 的 问题 。 

在 回归 分 析 的 众多 应 用 中 ， 经 常 要 考虑 有 较 多 自 
变量 的 情形 。 为 了 使 回归 模型 增加 自 变 量 或 者 从 回归 
模型 中 删除 自 变 量 , 我 们 介绍 了 基于 下 统计 量 的 一 般 
方法 。 接 着 ， 我 们 引入 了 包谷 25 个 观测 值 和 8 个 自 变 
关键 术语 和 J a 
general Linear model 一 般 线性 模型 ” 形 如 y=B, +Biz 

+B2zy +… +Bz,+s 的 模型 ， 式 中 每 一 个 自 变 量 z， 
1=1, 2，…， 前 是 可 是 9 …， 和 的 函数 ， 而 
这 些 变量 ，x,，…， Ww 的 数据 已 经 被 收集 。 


interaction ”交互 作用 | 两 个 自 变 量 共 同 作 用 的 影响 。 
variable selection procedures 变量 选择 方法 对 回归 
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EE 入 








/ em 
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ow 


一 般 线 性 模型 
y=BotBz +Bz t+ +pB,z,+e 
增加 或 删除 已-94 个 变量 的 下 检验 统计 量 


SSE{%, ,Xs ) — SSE(%, Ry ,sR ys ss ) 


(16-1) 


i ER) 
n-p-—l 


(16-13) 


们 已 经 得 到 了 含有 变量 Accounts、AdvExp、Poten 和 





| 最 


检验 。 





相关 性 是 否 存在 的 检验 。 








88. 1% 。 在 a =0.05 的 显著 性 水 平 下 ,应 用 杜 宾 - 
瓦特 森 检 验 来 确定 是 否 存在 正 自 相 关 性 。 





量 的 一 个 大 型 间 题 。 我 们 看 到 在 处 理 一 个 大 型 问题 时 ， 
还 到 的 难点 间 题 是 找 出 一 个 自 变 量 的 最 佳 子 集 。 为 了 
帮助 我 们 找 出 自 变量 的 这 个 景 佳 子 集 ， 我 们 讨论 了 一 
些 变量 选择 方法 : 逐步 回归 、 前 向 选择 、 后 向 消 元 和 
最 佳 子 集 回归 。 

在 第 16:5 节 中 ， 我 们 将 讨论 的 内 容 加 以 扩展 ， 即 
如 何 通 过 建立 多 元 回归 模型 得 到 解决 方差 分 析 和 实验 
设计 问题 的 另 一 种 方法 。 作 为 本 章 的 结束 ， 我 们 用 一 
个 残 差 分 析 的 应 用 来 说 明 自 相关 性 的 杜 宾 - 瓦特 森 









全 人 
站 1 1 
Wn rma 


模型 选择 一 个 自 变 量子 集 的 方法 。 

autocorrelation ” 自 相 关 性 当 模 型 误差 项 在 连续 时 间 
点 上 相关 时 ， 在 误差 项 中 出 现 的 相关 性 。 

serial correlation ”序列 相关 即 自 相关 性 。 

Durbin-Watson test 杜 宾 一 瓦特 森 检 验 ”确定 一 阶 自 





1 


一 阶 自 相关 性 


ER 机 名 (16-16) 
杜 宾 -瓦特 森 统 计量 
(Qe ~ 并 
di= 一 (16-17 ) 
2 
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r = 
' fr 4/ 
yo 
4 Ps 


30.《 消 费 者 报告 》 杂 志 检 测 了 19 堵 不 同 品牌 和 型 号 Type-Fitness: 如 果 自 行车 是 健身 型 ， 取 值 为 1; 


的 公路 自行 车 ， 健 身 自 行车 和 和 舒适 型 自行 车 。 公 路 和 否则， 取 值 为 0。 
自行 车 是 为 喜爱 远程 公路 骑 行 旅行 的 人 群 设计 的 ; Type-Comfort: 如 果 自 行车 是 舒适 型 ， 取 值 为 1; 
健身 自行 车 是 为 经 常 参加 体育 锻炼 或 每 天 需要 上 和 否则， 取 值 为 0。 
下 班 的 人 群 设计 的 ; 舒适 型 自行 车 通常 是 为 在 平 利用 这 两 个 虚拟 变量 建立 一 个 估计 的 回归 方程 ， 
坦 的 路 面 上 做 休闲 游 的 人 群 设计 的 。 对 19 款 被 检 使 该 方程 在 自行 车 类 型 已 知 时 ,能 用 来 预测 自 
测 自 行车 的 类 型 、 重 量 ( 磅 ) 和 价格 (美元 ) 的 行车 的 价格 。 请 将 得 到 的 估计 的 回归 方程 与 在 
统计 资料 如 下 所 示 (Consumer Reports website，2009 (b) 中 得 到 的 估计 的 回归 方程 进行 比较 。 
年 2 月 ) d. 为 了 解释 自行 车 类 型 与 自行 车 重量 之 间 可 能 存 
RR 在 的 交互 作用 ， 建 立 一 个 新 的 估计 的 回归 方程 ， 
品牌 和 型 号 类 型 。 〈 磅 ) (美元 ) 使 该 方程 在 自行 车 的 类 型 、 自 行车 的 重量 以 及 
a .| 自行 车 的 重量 与 (ce) 中 定义 的 每 一 个 虚拟 变量 
Giant OCR. Composite 3 公路 型 22 1 800 的 交互 作用 已 知 时 ， 能 用 来 预测 自行 车 的 价格 。 
Giant OCR 1 公路 型 22 1000 估计 的 回归 方程 是 自行 车 价格 的 最 佳 估 计 值 吗 ? 
Specialized Roubaix 公路 型 21 1300 32. 参阅 第 31 题 中 的 数据 。 考 虑 一 个 能 用 来 预测 Delay 
Trok Filot2. 1 公路 型 2 1320 的 模型 ， 该 模型 仅 以 Industry 为 自 变量 。 在 a = 
Comp Spapee4 BE 0.01 的 显著 性 水 平 下 ， 检 验 数据 中 的 正 自 相关 性 。 
LeMond Poprad 公路 型 22 1 350 


34. 曾经 进行 过 的 一 项 研究 是 调查 顾客 握 商 店 时 的 行 


rh ee 为 。 顾 客 被 分 为 以 下 三 种 类 型 ; 不 爱 选 商店 的 顾 
A 5 客 、 消 遗 性 逛 商店 的 顾客 和 特别 喜爱 选 商 店 的 顾 
Fuji Absolute2.0 健身 型 。 4 se 客 。 在 这 项 研究 中 ， 对 于 每 一 位 顾客 ， 我们 得 到 了 
Jamis Coda Comp 健身 型 。” 26 830 他 在 商店 里 是 否 感 到 舒适 民意 的 一 个 度量 。 较 高 的 
Cannendale Road Warrior 400 健身 型 25 700 得 分 表示 顾客 有 较 满意 的 每 适 感 。 假 设 这 项 研究 的 
Schwinn Sierra GS 每 适 型 。 31 340 数据 如 下 表 所 示 。 在 a=0.05 的 显著 性 水 平 下 ， 对 
Mongoose Switchback SX 舒适 型 32 280 这 三 种 类 型 的 顾客 在 逛 商店 时 舒适 程度 的 差异 进 
GiantSedona DX 舒适 型 32 360 行 检验 。 

Jamis Explaree 4.0 舒适 型 。 35 600 

Diamondback Wildwood Deluxe ”和 舒适 型 34 350 不 爱 雇 商店 消 遗 性 逛 商店 特别 喜爱 逛 商店 
Spadiiiw ES 舒适 型 。 31 330 的 顾客 的 顾客 的 顾客 


4 5 ; 

a. 以 重量 为 自 变 量 ， 价 格 为 应 变量 ， 对 这 些 数据 
绘制 散 点 图 。 简 单线 性 回归 模型 是 一 个 合适 的 
模型 吗 ? 

b. 设 x= 重 量 , 利用 x 和 x 作为 两 个 自 变量 ， 建 立 
一 个 估计 的 多 元 回归 方程 。 

c, 定义 两 个 自行 车 类 型 的 虚拟 变量 如 下 : 


= 
Ww OO 和 
-th 和 hh 











= 职 ， / 钢 / 5 夫 球 局 协会 巡回 赛 的 统计 分 析 ， 


美国 职业 高 尔 夫 球 协 会 (PGA) 保存 了 高 尔 夫 球员 参加 PGA 巡回 赛 的 成 绩 和 奖金 的 统计 资料 。 在 PGA 巡回 
赛 的 赛事 中 ， 总 奖金 前 125 位 的 高 尔 夫 球员 可 以 获得 下 个 赛季 的 免 资格 赛 的 特权 。 制 作 前 125 位 高 尔 夫 球员 的 奖 
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， 金 排行 榜 是 重要 的 ， 因 为 一 名 拥有 “ 免 资格 赛 ” 特 权 的 高 尔 夫 球员 能 直接 参加 下 个 赛季 了 PGA 巡回 赛 的 全 部 比赛 。 

Scoringaverage 通常 被 认为 是 在 PGA 巡回 赛 中 获得 胜利 的 最 重要 的 统计 指标 。 为 了 研究 平均 击 球 杆 数 与 诸如 发 
球 距 离 、 发 球 准确 度 、 标 准 杆 上 果 岭 、 沙 坑 救 球 和 每 轮 比 赛 推 村 入 洞 的 平均 次 数 等 变量 之 间 的 关系 ， 在 2008 年 
PGA 巡回 赛 的 赛事 中 ， 总 奖金 前 125 位 高 尔 夫 球 员 的 年 终 成 绩 的 统计 资料 ,保存 在 本 书 所 附 光 益 癌 为 PGATour 的 
文件 中 (PGA Tour website，2009 年 )s 数据 集 的 每 一 行 对 应 着 参加 PGA 巡回 赛 的 一 位 高 尔 夫 球 员 ， 并 且 数 据 已 按 
总 奖金 排序 。 数 据 集 中 的 变量 描述 如 下 。 : 

Money: 和 参加 PGA 巡回 赛 赛事 的 总 奖金 。 

Scoring Average; 每 轮 比 赛 的 平均 击 球 杆 数 。 

DrDist (Driving Distance， 发 球 距离 ): DrDist 是 每 次 发 球 实测 的 平均 码 数 。 在 PGA 巡回 赛 中 ， 发 球 距 离 是 在 
每 轮 比 赛 的 两 个 球 洞 上 测量 的 。 谨 慎 选 择 两 个 相反 方向 的 球 洞 ， 以 插 消 风 为 的 影响 。 发 球 距 离 测 量 是 待 球 处 于 静 
止 状态 后 进行 ， 而 不 管 球 是 否 在 球道 上 。 

DrAccu (Driving Accuracy， 发 球 准确 度 ) : 高 尔 夫 球 员 在 发 球 处 将 球 击 上 球道 次 数 的 比率 (而 不 管 是 何 种 球 
杆 ) 。 发 球 准 移 度 是 对 每 个 球 洞 测量 的 ， 但 不 包括 标准 杆 是 3 杆 的 情形 。 

GIR (Greens in Regulation， 标 准 杆 上 加 岭 ); 高 尔 夫 球员 能 够 标准 杆 上 果 岭 次 数 的 比率 。 如 果 按 标准 杆 上 果 
岭 (GIR) 规定 的 杆 数 击 球 后 ,高 尔 夫 球 的 任 一 部 分 触及 果 岭 的 推 本 区 域 ， 则 认为 是 标准 标 上 果 岭 。 标 准 杆 上 果 
岭 规定 的 杆 数 被 定义 为 比 标准 杆 少 2 杆 上 果 岭 〈 若 标准 杆 为 3 杆 洞 ， 则 第 工 杆 上 果 岭 ; 车 标准 杆 为 4 杆 润 ， 则 第 
2 杆 目 果 岭 ; 若 标 准 杆 为 5 杆 洞 ， 则 第 3 杆 上 果 岭 ) 。 换 句 话说， 如果 高 尔 夫 球员 比 标 准 杆 少 2 杆 上 果 岭 的 推 杆 区 
域 ,就 认为 是 标准 杆 上 果 岭 。 

Sand Saves: 一 旦 高 尔 夫 球 落 到 靠近 果 岭 的 沙 坑 里 ， 高 尔 夫 球员 能 克服 “地 面 的 高 低 起 伏 ” 将 球 救出 的 比例 
(不 考虑 得 分 )。 克 服 “ 地 面 的 高 低 起 伏 ” 将 球 救出 ， 表 示 球 员 用 2 杆 或 少 于 2 杆 将 高 尔 夫 球 从 人 靠近 果 岭 的 沙 坑 击 
入 球 洞 。 

PPR (Putts Per Round ) : 每 轮 比 赛 推 杆 入 球 洞 的 平均 次 数 。 

Scrambling; 高 尔 夫 球 员 没 能 做 到 标准 杆 上 果 岭 ， 但 还 是 取得 标准 杆 或 较 好 成 绩 的 次 数 的 比率 。 
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假设 你 被 PGA 巡回 赛 的 专员 聘请 ， 准 备 在 PGA 巡回 赛 的 年 度 会 议 上 做 数据 分 析 的 报告 。 专 员 问 ; 是 和 否 有 可 
能 利用 这 些 数据 来 确定 高 尔 夫 球员 的 成 绩 ， 也 就 是 确定 高 尔 夫 球员 平均 击 球 杆 数 的 最 佳 预测 值 。 利 用 在 本 章 和 第 
15 章 介绍 的 方法 分 析 数 据 。 为 PCA 巡回 赛 的 专员 编写 一 份 报告 ， 这 份 报告 总 结 了 你 的 分 析 ， 包 括 关键 的 统计 结 
果 、 结 论 和 建议 ， 附 录 中 有 对 你 编写 报告 适用 的 一 些 技术 资料 。 





TESTFSSETSTRNEESTOT 


Wine Spectator 杂志 刊登 的 文章 和 评论 涉及 酿酒 工业 的 各 个 方面 ， 包 括 来 自 世界 各 地 葡萄 酒 的 评级 。 在 最 近 一 
期 ， 该 杂志 使 用 百分制 ， 对 产 自 意大利 皮 埃 蒙特 地 区 的 475 瓶 葡萄 酒 进 行 了 检测 和 评级 (Wine Spectiator，2011 年 
4 月 30 日 )。 下 表 是 Wine Spectator 杂志 对 送 来 检测 的 每 一 瓶 酒 ， 被 评 为 经 典 的 、 优 秀 的 、 非 常 好 、 好 、 平 庸 、 还 
是 不 推荐 的 理由 。 


分 数 等 “级 

95 ~ 100 经 典 的 : 极 好 的 葡萄 酒 

90 ~94 优秀 的 : 出 众 的 特性 和 风格 的 葡萄 酒 

85 ~ 89 非常 好 :有 着 特殊 气质 的 葡萄 酒 

80 ~84 好 : 制作 精良 的 、 可 信赖 的 葡萄 酒 

75 ~79 平庸 ; 可 以 饮用 的 、 可 能 有 轻微 琅 疲 的 葡萄 酒 


75 以 下 不 推荐 
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对 大 多 数 消 费 者 而 言 ， 一 个 关键 问题 是 : 一 瓶 酒 付 的 钱 越 多 ， 这 瓶 酒 就 越 好 。 为 了 调查 这 个 问题 ， 我 们 从 产 
自 意大利 皮 埃 蒙特 地 区 送 到 Wine Spectator 杂志 检测 的 475 瓶 葡萄 酒 中 ， 选 取 100 瓶 组 成 一 个 随机 样本 。 样 本 中 每 
一 瓶 酒 的 价格 〈 美 元 ) 、 现 me Spectator 分 数 和 等 级 的 数据 ， 保 存在 本 书 所 附 光 盘 名 为 WineRatings 的 文件 中 。 
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1. 绘制 一 张 表 ， 按 经 典 的 、 优 秀 的 、 非 常 好 、 好 、 平 良和 不 推荐 将 样本 中 的 100 瓶 葡萄 酒 分 类 ， 并 且 表 明 每 
类 葡萄 酒 的 数量 和 平均 价格 。 在 葡萄 酒 的 价格 和 Wine Spectator 等 级 之 间 是 否 显现 出 任何 关系 ? 你 关于 数据 的 最 初 
结论 ， 在 其 他 方面 是 否 有 引 人 注 目 之 处 ? 

2. 以 价格 为 横 轴 ， 以 Wine Spectator 为 纵 轴 ， 绘 制 散 点 图 。 在 葡萄 酒 的 价格 和 Wine Spectator 等 级 之 间 是 和 否 显现 
出 线性 关系 ? 

3. 利用 线性 回归 ， 建 立 一 个 估计 的 回归 方程 ， 使 该 方程 在 葡萄 酒 的 价格 已 知 时 ， 能 用 来 预测 Wine Spectator 的 
等 级 。 

4. 利用 一 个 三 阶 模型 ， 建 立 一 个 估计 的 回归 方程 ， 使 该 方程 在 葡萄 酒 的 价格 已 知 时 ， 能 用 来 预测 Wine Specta- 
tor 的 等 级 。 

5. 将 线性 拟 合 模型 与 二 阶 拟 合 模型 进行 比较 。 

6. 作为 二 阶 拟 合 模型 的 替代 ， 利 用 葡萄 酒 价 格 的 自然 对 数 做 自 变 量 ， 建 立 一 个 拟 合 模型 。 将 这 个 拟 合 模型 与 
二 阶 拟 合 模型 进行 比较 。 

7. 基于 你 的 分 析 ， 你 是 否 会 认为 ; 一 瓶 酒 付 的 钱 越 多 ， 这 瓶 酒 就 越 好 ? 

8. 假设 ， 你 打算 为 买 一 瓶 酒 最 多 花 30 美元 。 在 本 案例 中 ， 你 是 否 会 花 比 你 的 上 限 低 得 多 的 价格 买 一 瓶 酒 ? 






































实践 中 的 统计 : 内 华 达 职业 健康 诊所 
17. 1 间 序 列 的 模式 

17.2 预测 精度 人 
17.3 ”移动 平均 法 和 指数 平滑 法 
17.4 趋势 推测 法 
17.5 季节 性 和 趋势 
17.6 间 序 列 分 解法 | 
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实践 中 的 统计 
内 华 达 职 业 健 康 诊所 8 
内 华 达州 。 斯 帆 克 其 


内 华 达 职业 健康 诊所 是 位 于 内 华 达 州 斯 帕克 斯 市 
的 一 家 私人 医疗 诊所 。 该 诊所 已 有 20 多 年 的 历史 ， 专 
门 从事 工 业 医 疗 ， 并 且 一 直 处 于 快速 增长 中 。 在 26 个 
月 里 ， 它 的 月 营业 额 从 57 000 美元 一 直 增 长 到 超过 
300 000 美 元 ， 直 到 主要 大 楼 被 大 火烧 筑 。 

诊所 的 保险 单 包括 实物 财产 和 设备 ， 还 包括 由 于 
正常 商业 经 营 被 打 断 而 遭受 的 经 济 损失 。 确 定 实物 财 
产 和 设备 在 火灾 中 的 损失 额 ， 在 受理 保险 索赔 中 并 不 
是 一 件 很 困难 的 事情 。 但是， 确定 该 诊所 在 7 个 月 的 


重建 期 间 内 的 经 营 损失 则 是 一 件 相 当 复 杂 的 事情 ， 它 
涉及 业主 和 保险 公司 之 间 的 谈判 。 没 有 预先 制定 的 规 
则 可 以 用 来 计算 ,假如 没有 发 生火 灾 ， 诊 所 的 营业 额 


“将 会 有 多 少 ”。 为 了 估计 收入 损失 ， 诊 所 利用 一 种 预 


测 方法 来 测算 在 7 个 月 的 停业 期 间 可 能 实现 的 营业 增 
长 。 火 灾 前 营业 额 的 历史 数据 将 会 成 为 预测 模型 的 基 
础 ， 该 模型 具有 线性 趋势 和 季节 成 分 ， 这 些 成 分 将 在 
本 章 中 加 以 讨论 。 这 个 预测 模型 使 诊所 能 准确 估计 所 
蒙受 的 损失 ， 并 且 最 终 被 保险 公司 所 接受 。 


本 章 的 目的 是 介绍 时 间 序 列 分 析 及 预测 。 假 设 我 们 要 提供 公司 的 一 种 产品 在 来 年 的 季度 销售 预测 ,生产 计 
划 、 原 材料 的 采购 、 库 存 策 略 和 销售 定额 都 将 受到 我 们 提供 的 季度 预测 的 影响 。 因 此 ， 较 差 的 预测 将 导致 较 差 的 
计划 并 增加 公司 的 生产 成 本 。 我 们 应 该 如 何 着 手提 供 季 度 的 销售 预测 呢 ? 对 经 济 状况 好 的 判断 、 直 觉 和 意识 ， 可 
以 给 我 们 一 个 未 来 可 能 发 生态 势 的 粗略 想法 或 “感觉 ”但 将 这 些 感觉 转化 为 能 用 来 预测 来 年 销售 的 数字 是 很 困 
难 的 。 

预测 方法 可 分 为 定量 和 定性 两 种 方法 。 定 性 方法 通常 利用 专家 判断 来 进行 预测 。 当 被 预测 变量 的 历史 数据 不 
适合 或 者 难以 获得 时 ,可 以 使 用 这 些 方法 。 当 以 下 条 件 同时 满足 时 ， 可 以 使 用 定量 预测 方法 : 中 被 预测 变量 过 去 
的 信息 可 用 ; 包 这 些 信息 可 以 被 量化 ; (3 过 去 的 模式 将 会 持续 到 未 来 的 假定 合理 。 在 这 种 情形 下 ， 可 以 使 用 时 间 
序列 法 或 因果 法 来 进行 预测 。 本 章 我 们 将 专门 关注 定量 预测 方法 ”。 

如 果 历 史 数据 局 限于 被 预测 变量 的 过 去 值 ， 这 种 预测 方法 被 称 为 时 间 序 列 方法 ， 历 史 数 据 被 称 为 时 间 序 列 。 
时 间 序 列 分 析 的 目的 是 在 历史 资料 或 时 间 序 列 中 发 现 规律 性 的 模式 ， 然 后 将 这 个 模式 外 推 到 未 来 。 这 种 预测 仅仅 
依赖 于 变量 的 过 去 值 和 (或 ) 过 去 的 预测 误差 。 

因果 预测 方法 的 依据 是 假定 我 们 正 预 测 的 变量 与 其 他 一 个 或 几 个 变量 存在 一 个 因果 关系 。 在 第 14 章 、 第 15 
章 和 第 16 章 回 归 分 析 的 讨论 中 ， 我 们 演示 了 如 何 用 一 个 或 多 个 自 变量 来 预测 单个 应 变量 的 值 。 将 回归 分 析 作 为 
预测 工具 ， 我 们 可 以 将 想 要 预测 的 时 间 序 列 的 值 作为 应 变量 。 因 此 ， 如 果 我 们 能 确定 相关 的 自 变量 或 解释 变量 的 
一 个 合适 的 集合 ， 或 许 就 能 够 建立 用 于 推测 或 预测 时 间 序 列 的 佑 计 的 回归 方程 。 例 如 ， 许 多 产品 的 销售 量 受 广告 
支出 的 影响 ， 因 此 ， 可 用 回归 分 析 建 立 一 个 方程 ,来 显示 销售 量 和 广告 支出 的 关系 。 一 旦 确定 了 下 一 个 时 期 的 广 
告 预 算 , 我 们 将 这 个 数值 代入 方程 ， 可 以 得 到 下 一 个 时 期 销售 量 的 推测 值 或 预测 值 。 注 意 ， 如 果 使 用 时 间 序 列 方 
法 进行 预测 ， 则 不 需要 考虑 广告 支出 ， 也 就 是 说 ， 时 间 序 列 方法 仅仅 依赖 于 过 去 的 销售 资料 。 

通过 将 时 间 视 为 自 变量 ， 时 间 序 列 视 为 应 变量 ， 回 归 分 析 也 可 以 用 于 时 人 间 序 列 方 法 。 为 了 区 分 回归 分 析 在 两 
种 情形 下 的 应 用 ,我 们 用 术语 截面 回归 和 时 间 序 列 回归 表述 。 于 是 ， 时 间 序 列 回归 是 指 自 变量 是 时 间 的 回归 分 析 
应 用 。 本 章 由 于 我 们 关注 时 间 序 列 方法 ， 因 此 ， 我 们 将 不 讨论 因果 预测 方法 的 回归 分 析 ， 这 种 方法 已 在 前 面 关 于 
预测 的 教材 中 讨论 过 。 


虽 “作者 感谢 为 “实践 中 的 统计 ”提供 了 本 案例 的 内 华 达 职业 健康 诊所 业务 主管 Bard Betz 和 行政 执行 助理 Curtis Brauer。 
名， 预测 仅仅 是 对 将 来 可 能 发 生 情况 的 一 种 简单 的 判断 。 管 理 者 必须 学 会 接受 这 样 一 种 事实 : 无 论 使 用 什么 样 的 预测 方法 ， 他 们 都 不 可 
能 获得 理想 的 预测 结果 。 
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17.1 时 间 序 列 的 模式 


时 间 序 列 (time series) 是 一 个 变量 在 连续 时 点 或 连续 时 期 上 测量 的 观测 值 的 序列 。 测 量 可 以 每 隔 一 小 时 、 一 
天 、 一 周 、 一 个 月 、 一 年 ,或 在 任何 其 他 规定 的 时 间 间 隔 上 “进行 。 数 据 的 模式 是 了 解 时 间 序 列 过 去 行为 的 重要 
因素 。 如 果 这 种 行为 预计 可 以 持续 到 未 来 ， 我 们 可 以 用 过 去 的 模式 来 指导 我 们 选择 合适 的 预测 方法 。 

为 了 确定 数据 中 的 基本 模式 ， 有 效 的 第 一 步 是 绘制 时 间 序 列 图 (time series plot) 。 时 间 序 列 图 是 时 间 和 时 间 
序列 变量 之 间 关 系 的 图 形 表述 : 时 间 位 于 横 轴 ， 时 间 序 列 值 位 于 纵 轴 。 当 观察 时 间 序 列 图 时 ， 让 我 们 回顾 一 下 能 
被 确认 的 数据 模式 的 一 些 常 见 类 型 。 


17. 1. 1 水 平 模式 

当 数 据 围绕 着 一 个 不 变 的 均值 上 下 波动 时 ， 则 存在 水 平 模式 (horizontal pattern)。 为 了 说 明 时 间 序 列 拥有 水 
平 模式 ， 考 虑 表 17-1 中 的 12 周 的 数据 。 这 些 数据 是 佛蒙特 州 本 宁 顿 的 一 个 汽油 批发 商 销售 汽油 的 数量 。 时 间 序 
列 的 平均 数 或 均值 为 每 周 19. 25 或 19 250 加 仑 。 图 17-1 是 这 些 数据 的 时 间 序 列 图 。 注 意 ， 这 些 数据 围绕 着 样本 均 
值 19 250 加 仑 上 下 波动 。 尽 管 呈现 随机 波动 ， 但 我 们 仍然 说 这 些 数据 有 水 平 模式 ， 


表 17-1 汽油 销售 量 的 数据 序列 


周 消 售 量 (1 000 加 仑 ) 周 销售 量 (1 000 加 仑 ) 
1 17 5 18 9 22 
区 21 6 16 10 20 
3 19 了 20 11 15 
4 63 8 18 12 22 


术语 平稳 时 人 间 序 列 (stationary time series) “是 指 25 
统计 性 质 是 与 时 间 独 立 的 时 间 序 列 ， 特 别 地 ， 其 含 
义 为 20 
1. 过 程 产生 的 数据 有 一 个 不 变 的 均值 ; 
2. 时 间 序 列 的 变异 性 随时 间 的 推移 保持 不 变 。 
平稳 时 间 序 列 的 时 间 序 列 图 总 是 显示 水 平 模式 。 
但 仅仅 观测 到 水 平 模式 就 得 出 时 间 序 列 是 平稳 的 结 
论 ， 并 没有 足够 的 证 据 。 在 关于 预测 的 更 高 级 的 教材 
中 讨论 了 确定 时 间 序 列 是 香 平 稳 的 步 又， 并 给 出 将 一 
个 不 平稳 的 时 间 按 序列 转化 为 平稳 序列 的 方法 。 
经 验 环境 的 改变 常常 导致 有 水 平 模式 的 时 间 序 列 or i I a 0 TL i 
移动 到 一 个 新 的 水 平 。 例 如 ,假设 汽油 批发 商 与 佛 蒙 周 
特 州 警方 签署 了 一 份 合同 ， 给 佛蒙特 州 南部 的 警车 加 图 17-1 汽油 销售 量 的 时 间 序 列 图 
油 。 由 于 这 个 新 合同 ， 批 发 商 希 望 看 到 从 第 13 周 开 
始 周 销售 量 有 大 幅度 的 增加 。 表 17-2 中 给 出 了 汽油 销售 量 的 原始 时 间 序 列 以 及 签署 了 新 合同 后 10 周 的 销售 量 数 
据 。 图 17-2 是 相应 的 时 间 序 列 图 。 注 意 从 第 13 周 开 始 时 间 序 列 水 平 增 加 了 ， 时 间 序 列 水 平 的 改变 使 得 选择 一 个 
合适 的 预测 方法 变 得 更 为 困难 。 选 择 能 较 好 地 适应 时 间 序 列 水 平 改变 的 预测 方法 在 许多 实际 应 用 中 是 一 件 重要 的 
值得 考虑 的 事情 。 


15 


销售 量 (1000 加 仓 ) 


日 ”我 们 对 时 间 序 列 的 讨论 仅 限于 时 间 序 列 的 观测 值 是 来 自 等 间隔 的 情形 ， 时 间 序 列 的 观测 值 来 自 不 等 间隔 的 情形 超出 本 书 的 讨论 


范围 
蝗 平稳 的 正式 定义 见 G. EE. P. Box ，G. M. Jenkins 和 G, C. Reinsell，Time Series Analysis: Forecasting and Control，3rd ed Englewood Cliffs, 
NJ: Prentice Hall, 1994, p.23. 


第 17 章 时 间 序 列 分 析 及 预测 425 


表 17-2 ”获得 佛蒙特 州 警方 合同 后 汽油 销售 量 的 数据 序列 





周 销售 量 (1 000 加 仓 ) 本 销售 量 (1 000 加 仓 ) 周 销售 量 (1 000 加 仑 ) 
1 17 17 28 
2 | 18 32 
3 19 19 30 
4 23 20 29 
5 18 21 34 
6 16 22 33 
7 20 
8 18 
40 
35 
天 30 
其 25 
3, 
串 15 
条 1 
5 
T2734 6 7 8 9 1011 D713 14 i617 i 2021 33324 


周 
图 17-2 ”获得 佛蒙特 州 警 方 合同 后 汽油 销售 量 的 时 间 序 列 图 


17. 1.2 趋势 模式 


尽管 时 间 序 列 的 数据 通常 呈现 随机 起 伏 的 状态 ， 但 在 一 段 较 长 的 时 间 内 ， 它 仍然 呈现 出 逐步 的 改变 或 移动 到 
相对 较 高 或 较 低 的 值 。 如 果 时 间 序 列 图 显示 出 这 类 形态 特征 ， 我 们 则 称 存在 趋势 模式 (trend pattem ) 。 趋 势 通常 
是 长 期 因素 影响 的 结果 ， 例 如 入口 总 数 的 增加 或 减少 、 人 口 总 体 统计 特征 、 工 艺 和 顾客 偏爱 的 变化 等 。 

为 了 说 明 拥有 趋势 模式 的 时 间 序列 ， 我 们 考虑 某 自行 车 制造 厂 过 去 10 年 自行 车 销售 量 的 时 间 序 列 ， 如 表 17-3 
和 图 17-3 所 示 。 注 意 第 1 年 自行 车 的 销售 量 为 21 600 辆 ,第 2 年 自行 车 的 销售 量 为 22 900 辆 ，…, 第 10 年 (最 
近 一 年 ) 目 行 车 的 销售 量 为 31 400 辆 。 时 间 序 列 图 直观 显示 出 ， 在 过 去 10 年 中 销售 量 有 上 下 波动 ， 但 时 间 序 列 
似乎 总 体 是 增长 的 或 有 向 上 的 趋势 。 


表 17-3 自行 车 销售 量 的 时 间 序 列 34 
年 销售 量 (1 000 辆 ) 32 
1 21. 6 30 
2 22.9 
3 7 i 
4 21,9 痢 2 
5 23.9 儿 24 
6 os 
7 31.5 
8 29.7 Ey i .ib 
9 28.6 


年 
31,4 图 17-3 ”自行 车 销售 量 的 时 间 序 列 图 


hits 
bd 
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自行 车 销售 量 时 间 序 列 的 趋势 呈现 线性 且 随 时 间 推 移 而 增长 ,但 是 有 时 趋势 能 用 其 他 类 型 的 模式 更 好 地 描 
述 。 例 如 ， 表 17-4 给 出 了 自从 10 年 前 公司 的 胆固醇 药物 获得 FDA 批准 后 的 销售 收入 数据 ， 图 17-4 是 相应 的 时 间 
序列 图 。 时 间 序 列 以 非 线性 的 方式 增长 ， 即 每 年 收入 的 变化 率 不 是 以 一 个 固定 的 数值 来 增加 。 事 实 上， 收入 呈现 
指数 形式 的 增长 。 当 环比 变化 率 从 一 个 时 期 到 下 一 个 时 期 相对 稳定 时 ， 这 样 的 指数 关系 是 适合 的 。 


表 17-4 胆固醇 药物 销售 收入 的 时 间 序 列 


年 
I 
2 
3 
4 
5 
6 
ly 
8 
9 


10 


17. 1.3 季节 模式 


销售 收入 (100 万 美元 ) 


dol 
21,3 
27.4 
34.6 
33.8 
43. 2 
59.5 
64.4 
74.2 
99. 3 


销售 收入 “100 万 美元 ) 


80 


40 


] 2 3 +4 


5 6 及 8 9 0 


.年 
图 17-4 ”胆固醇 药物 销售 收入 的 时 间 序 列 图 


时 间 序 列 的 趋势 是 根据 分 析 历 史 数 据 多 年 的 移动 来 识别 的 。 我 们 通过 在 连续 的 时 间 段 观测 同样 的 重复 
模式 来 确认 季节 模式 。 例 如 ， 一 个 游泳 池 制 造 商 预 期 销售 低谷 在 秋季 和 冬季 ， 而 销售 高 峰 在 春季 和 夏季 。 
但 是 ， 锌 雪 设 备 和 御寒 衣物 的 制造 商 对 他 们 产品 销量 的 预期 正好 相反 。 毫 无 疑问 ， 季 节 模 式 (seasonal pat- 
tem) 是 指 ， 在 超过 一 年 的 周期 肉 ， 由 于 受 季 节 的 影响 ， 时 间 序 列 呈 现 重复 模式 。 尽 管 我 们 通常 认为 时 间 序 
列 的 季节 变动 是 在 一 年 内 出 现 的 ,但 在 小 于 一 年 的 时 期 内 时 间 序 列 数据 也 可 能 呈现 季节 模式 。 例 如 ， 每 天 
的 交通 流量 数据 显示 在 一 天 内 的 “季节 ”情况 ， 高 峰 流 量 在 上 下 班期 间 ， 中 等 流量 在 白天 和 傍晚 ， 小 流量 


是 从 午夜 到 清晨 。 


作为 季节 模式 的 一 个 例子 ， 我们 考虑 过 去 5 年 一 家 商店 的 雨 爹 销售 量 。 表 17-5 是 时 间 序 列 ， 图 17-5 是 相应 
的 时 间 序 列 图 。 时 间 序 列 图 没有 显示 销售 量 有 长 期 趋势 。 事 实 上 ， 如 果 不 仔细 观测 数据 ， 你 可 能 会 得 出 数据 有 水 
平 模式 的 结论 。 但 是 ， 仔 细 检 查 时 间 序列 图 ， 你 会 发 现 数据 有 一 个 规律 ， 即 第 一 季度 和 第 三 季度 销售 量 中 等 ， 第 
二 季度 销售 量 最 高 ， 第 四 季度 销售 量 最 低 。 因 此 ， 我 们 得 出 结论 : 存在 季度 的 季节 模式 。 


年 份 


司 
涵 


ii 


表 17-5 雨伞 销售 量 的 时 间 序 列 
销售 量 


年 份 


| 一 | 


炳 
沪 
以 
政 
演 
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和 
第 ! 年 第 2 年 第 3 年 第 4 年 第 5 年 
年 /季度 


图 17-5 雨 使 销售 量 的 时 间 序 列 图 


17. 1.4 趋势 与 季节 模式 

有 时 时 间 序 列 同时 包含 趋势 模式 和 季节 模式 。 例 如 ， 表 17-6 中 的 数据 是 某 制造 商 过 去 4 年 的 电视 机 的 销售 
量 , 图 17-6 是 相应 的 时 间 序 列 图 。 显 然 ， 有 增长 趋势 ,但 图 17-6 也 显示 出 每 年 二 季度 销售 量 最 低 ， 第 三 季度 和 
第 四 季度 销售 量 上 涨 。 于 是 ,我们 得 出 电视 机 销售 量 也 存在 季 人 模式。 在 这 种 情形 下 ， 我 们 需要 用 能 同时 处 理 趋 
势 和 季节 性 的 预测 方法 。 


表 17-6 电视 机 销售 量 的 季度 时 间 序 列 


年 份 季度 销售 量 (1000 台 ) 年 份 季度 销售 量 (1 000 台 ) 
1 4.8 1 6.0 
I 和 4 1 2 5.6 
3 6.0 3 7.5 
4 6.5 4 7.8 
1 5.8 1 6.3 
2 5.2 4 2 5.9 
3 6.8 3 8.0 
4 7.4 4 8.4 
9.0 
8.0 
位 70 
S20 
是 
车 4 
| 
地 2.0 
1.0 
0.0 
Wy 
第 1 年 第 2 年 第 3 年 第 4 年 
年 /季度 


图 17-6 电视 机 季度 销售 量 的 时 间 序 列 图 
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17. 1.5 循环 模式 


如 采 时 间 序 列 图 显示 出 持续 时 间 超 过 一 年 的 在 趋势 线 的 上 下 交替 的 点 序列 ， 则 存在 循环 模式 ( cyclical pat- 
term) 。 许 多 经 济 时 间 序 列 存在 循环 行为 ， 其 观测 值 围绕 着 趋势 线 有 规则 地 上 下 波动 。 通 常 ， 时 间 序 列 的 循环 成 分 
归 因 于 多 年 的 经 济 周期 。 例 如 ， 温 和 的 通货 膨胀 时 期 之 后 紧 接 着 急剧 的 通货 膨胀 时 期 ， 导 致 时 间 序 列 通常 会 围绕 
着 一 条 增长 的 趋势 线 ( 例 如， 关于 房地产 价格 的 时 间 序 列 ) 上 下 波动 。 经 济 周期 的 预测 ， 如 果 不 是 不 可 能 ， 也 是 
极为 困难 的 ， 因 此 ， 循 环 影响 常常 与 长 期 趋势 影响 合并 ， 称 为 趋势 循环 影响 。 本 章 我 们 不 涉及 在 时 间 序 列 中 有 可 
能 存在 的 循环 影响 。 


17. 1.6 选择 预测 方法 


时 间 序 列 的 基本 模式 是 选择 预测 方法 的 重要 因素 。 因 此 ， 当 试图 确定 使 用 怎样 的 预测 方法 时 ， 第 一 项 工作 应 
该 是 绘制 时 间 序 列 图 。 如 果 我 们 发 现 水 平 模式 ， 则 需要 选择 适合 这 种 模式 的 方法 。 类 似 地 ， 如 果 我 们 观测 到 数据 
的 趋势 ， 则 需要 使 用 能 有 效 地 处 理 趋势 的 预测 方法 。 下 面 两 节 将 说 明基 本 模式 的 水 平 模式 〈 没 有 趋势 或 季节 影响 
存在 ) 时 所 使 用 的 方法 。 然 后 ， 我 们 考虑 在 数据 中 存在 趋势 和 (或 ) 季节 时 的 适合 方法 。 


17. 2 “预测 精度 


本 节 首 先 我 们 对 表 17-1 汽油 销售 量 的 时 间 序 列 用 所 有 预测 方法 中 最 简单 的 一 种 方法 进行 预测 : 即 用 最 近 一 周 
的 销售 量 作为 下 一 周 的 预测 值 。 例 如 ， 批 发 商 第 1 周 售 出 17 千 加 合 汽油 ; 用 这 个 值 作为 第 2 周 的 预测 值 。 接 着 ， 
我 们 用 第 2 周 的 实际 销售 量 21 作为 第 3 周 的 预测 值 ， 依 此 类 推 。 用 这 种 方法 得 到 的 预测 值 列 在 表 17-7 的 预测 值 
一 列 中 。 由 于 其 简单 ， 故 该 方法 常常 被 称 为 朴素 预测 法 。 

用 朴素 预测 法 得 到 的 预测 精度 如 何 ” 为 了 回答 这 个 问题 ,我 们 介绍 几 种 测量 预测 精度 的 方法 。 这 些 方法 用 于 
确定 一 种 预测 方法 如 何 能 很 好 地 再 现 已 经 得 到 的 时 间 序 列 数据 。 对 于 已 知 数据 ， 通 过 选择 最 佳 精度 的 方法 ， 我 们 
希望 增加 获得 未 来 时 期 更 好 预测 的 可 能 性 。 

与 测量 预测 精度 相关 的 重要 概念 是 预测 误差 (forecast error) ， 其 定义 为 

预测 误差 = 实际 值 - 预测 值 

例如 ， 由 于 经 销 商 第 2 周 实际 售 出 21 千 加 仓 汽油 ， 而 用 第 1 周 销售 量 得 到 的 预测 值 是 17 千 加 仑 ， 因 此 第 2 

周 的 预测 误差 为 
第 2 周 的 预测 误差 = 21 -17 =4 

预测 误差 为 正 的 事实 表明 预测 方法 对 第 2 周 的 实际 销售 量 估 计 不 足 。 接 下 来 ,我 们 用 第 2 周 的 实际 销售 量 21 
作为 第 3 周 的 预测 值 ， 因 为 第 3 周 的 实际 销售 量 为 19， 则 第 3 周 的 预测 误差 为 19 -21 = -2。 这 时 ， 负 的 预测 误 
差 表 明 第 3 周 的 预测 值 过 高 估计 了 实际 数值 。 因 此 ， 误 差 可 正 可 负 ， 取 决 于 预测 值 是 太 低 还 是 太 高 。 表 17-7 中 预 
测 误差 一 列 是 朴素 预测 法 预测 误差 的 完整 汇总 。 


表 17-7 用 最 近 的 值 作为 下 一 期 预测 值 时 ， 预 测 及 其 预测 精度 测度 的 计算 表 


预测 误差 预测 误差 
时 间 序 列 值 预测 值 预测 误差 的 纺 对 导 抱 二 天 百分数 误差 


百分数 误差 
的 绝对 值 


16 19. 05 19. 05 
4 ~10.53 15. 53 
16 17;39 17..39 
25 一 27.78 27. 78 
1 一 12. 50 12. 50 
16 20. 00 20. 00 
-11.11 i 
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( 续 ) 

预测 误差 预测 误差 百分数 误差 

周 时 间 序 列 值 预测 值 预测 误差 的 绝对 值 的 平方 百分数 误差 的 绝对 什 
9 22 18 4 4 16 18. 18 18. 18 
10 20 22 =2 2 4 -10.00 10. 00 
11 15 20 = 5 25 -33. 32 33. 32 
12 22 15 -3 野 49 31. 82 31. 82 
合计 5 41 179 1. 19 211. 69 


一 个 简单 的 预测 精度 的 测度 是 预测 误差 的 均值 或 平均 数 。 由 表 17-7 可 知 ， 汽 油 销售 量 时 间 序 列 预测 误差 之 
和 为 5， 因 此 ， 预 测 误差 的 均值 或 平均 数 为 5/11 =0.45。 注 意 ， 尽 管 汽 油 时 间 序 列 有 12 项 ， 但 计算 平均 误差 时 ， 
我 们 用 预测 误差 之 和 除 以 11， 这 是 因为 只 有 11 个 预测 误差 。 由 于 平均 预测 误差 为 正 ， 这 种 方法 有 些 估计 不 足 ; 
换 名 话说， 观测 值 有 大 于 预测 值 的 倾向 。 由 于 正 的 和 负 的 预测 误差 相互 抵消 ， 平 均 误 差 应 该 很 小 ; 因此 ， 平均 误 
差 不 是 预测 精度 的 常用 测度 。 

平均 绝对 误差 (mean absolute error) 是 避免 正 负 预 测 误差 相互 抵消 的 一 种 预测 精度 的 测量 ， 记 为 MAE。 正 如 
其 名 ，MAE 是 预测 误差 绝对 值 的 平均 数 。 由 表 17-7 可 知 ， 预 测 误差 绝对 值 之 和 为 41 ， 因 此 


MSE = 预测 误差 绝对 值 的 平均 数 = 全 = 93973 


避免 正 负 预 测 误差 相互 抵消 的 另 一 种 测量 方法 是 计算 预测 误差 平方 的 平均 数 。 这 种 预测 精度 的 测度 称 为 均 方 
误差 (mean squared error) ， 记 为 MSE“。 由 表 17-7 可 知 ， 误 差 平方 之 和 为 179， 因 此 


MSE = 预测 误差 平方 和 的 平均 数 = 人 = 16. 27 


MAE 和 MSE 的 大 小 依赖 于 数据 的 测量 尺度 ， 因此， 对 不 同时 间 间 隔 进 行 比较 是 很 困难 的 。 例 如 对 预测 月 汽 
油 销售 量 的 方法 和 预测 周 销 售 量 的 方法 进行 比较 ， 或 对 不 同时 间 序 列 的 比较 都 是 困难 的 。 为 了 对 这 些 情况 进行 比 
较 ， 我 们 需要 考虑 相对 的 或 百分数 误差 的 测度 。 平 均 绝 对 百分数 误差 (mean absolute percentage error ) ， 记 为 
MAPE， 就 是 这 样 一 种 测度 。 为 了 计算 MAPE ， 首 先 我 们 必须 计算 每 一 个 预测 的 百分数 误差 。 例 如 ， 对 应 于 第 2 周 
预测 值 17 的 百分数 误差 ， 是 第 2 周 的 预测 误差 除 以 第 2 周 的 实际 值 再 乘 以 100。 第 2 周 的 百分数 误差 计算 如 下 : 


第 2 周 的 百分数 误差 = 生 x 100 = 19. 05% 


于 是 ,第 2 周 的 预测 误差 是 第 2 周 观 测 值 的 19.05% 。 百 分 数 误差 的 完整 汇总 列 在 表 17-7 百分数 误差 一 列 中 。 
我 们 还 给 出 了 百分数 误差 的 绝对 值 。 
由 表 17-7 可 知 ， 百 分 数 误 差 的 绝对 值 之 和 为 211. 69， 因 此 
211. 69 


MAPE = 百分数 预测 误差 的 绝对 值 的 平均 数 = Ti 


总 之 ， 用 朴素 (最近 一 期 观测 值 ) 预测 法 ， 我 们 得 到 如 下 预测 精度 的 测度 : 
MAE = 3.73 
MSE = 16. 27 
MAPE = 19.24% 

这 些 预测 精度 的 测度 简单 地 度量 了 预测 方法 如 何 能 很 好 地 预测 时 间 序 列 的 历史 数值 。 现 在 ， 假 设 我 们 想 要 预 
测 未 来 时 期 (如 第 13 周 ) 的 销售 量 。 在 这 种 情形 下 ， 第 13 周 的 预测 值 是 第 12 周 时 间 序 列 的 实际 销售 量 22。 这 
是 第 13 周 销售 量 的 一 个 准确 的 估计 值 吗 ? 很 遗憾 ， 没 有 解决 未 来 时 期 预测 精度 的 方法 。 但 是 ， 如 果 我 们 选择 一 
种 适用 于 历史 数据 的 预测 方法 ， 而 且 我 们 相信 历史 模式 可 以 持续 到 未 来 ， 那 么 我 们 应 该 得 到 最 终 被 证 实 是 好 的 
结果 。 


= 19. 24% 


唱 在 回归 分 析 中 ， 残 差 是 指 应 变量 的 观测 值 与 估计 值 之 间 的 差 。 预 测 误 差 与 回归 分 析 中 的 残 差 相 似 。 
加 ”在 回归 分 析 中 ，MSE 是 残 差 平 方 和 除 以 它 的 自由 度 。 在 预测 中 ，MSE 是 预测 误差 平方 和 的 平均 数 。 


430 商务 与 经 济 统计 


在 结束 本 节 之 前 ， 我 们 考虑 表 17-1 的 汽油 销售 量 时 间 序 列 的 另 一 种 预测 方法 。 假 设 我 们 用 所 有 得 到 的 历史 数 
据 的 平均 值 作为 下 一 期 的 预测 值 。 我 们 开始 建立 第 2 周 的 预测 值 。 因 为 对 第 2 周 只 得 到 一 个 历史 数据 ， 因 此 第 2 
周 的 预测 值 就 是 第 :1 周 的 时 间 序 列 值 ; 即 第 2 周 的 预测 值 是 17 千 加 仓 。 为 计算 第 3 周 的 预测 值 ， 我 们 计算 第 1 周 
和 第 2 周 销售 量 的 平均 值 。 因 此 


17 +21 


7 = 19 


第 3 周 的 预测 值 = 
类 似 地 ,第 4 周 的 预测 值 为 
第 4 周 的 预测 值 = 19 


用 这 种 方法 得 到 的 汽油 时 间 序 列 的 预测 值 在 表 17-8 的 预测 一 列 中 。 利 用 表 17-8 的 结果 ,我 们 得 到 平均 绝对 
误差 、 均 方 误差 和 平均 绝对 百分数 误差 的 值 如 下 : 
26. 81 


平均 绝对 误差 = 2.44 


17+21+19— 
i 





均 方 误差 = = 8.10 
平均 绝对 百分数 误差 = 了 1 = 12. 85% 
表 17-8 用 所 有 历史 数据 平均 值 作为 下 一 期 预测 值 时 ， 预 测 及 其 预测 精度 测量 的 计算 表 
预测 误差 预测 误差 百分数 误差 
周 时 间 序 列 什 预测 什 预测 误差 el esi 百分数 误差 pe 
l 17 
2 21 17. 00 4.00 4. 00 16. 00 19..05 19..05 
3 19 ”19.00 0.00 0. 00 0. 00 0.00 0.00 
4 23 19. 00 4. 00 4. 00 16. 00 17. 39 17. 39 
>] 18 20. 00 -2,.00 2. 00 4, 00 一 1. 11 | 
6 16 19.6 -3.60 3. 60 12. 96 -22. 50 22. 50 
7 20 19. 00 1.00 1.00 1. 00 5.00 $.00 
8 18 19. 14 -1. 14 1. 过 3 -6.35 6. 35 
9 22 19. 00 3. 00 3. 00 9. 00 13.64 13. 64 
10 20 19. 33 0.67 0.67 0. 44 .30 3. 33 
11 15 19.4 -4.4 4.4 18. 36 -29.32 29.33 
12 22 19. 00 3.00 3.00 9.00 13. 64 13.64 
合计 4.53 26. 81 89. 07 2.76 141. 34 


现在 我 们 通过 比较 每 一 种 方法 的 MAE、MSE 和 MAPE 的 值 ， 来 比较 两 种 预测 方法 的 精度 。 


朴素 预测 法 过 去 数值 平均 数 法 
MAE 3.73 2. 44 
MSE 16. 27 8. 10 
MAPE 19. 24 护 12, 85% 


对 每 一 种 测度 ， 过 去 数值 平均 数 法 都 比 用 最 近 一 期 观测 值 作为 下 一 期 预测 值 的 方法 提供 了 更 准确 的 预测 。 一 
般 地 ， 如 果 时 间 序 列 基本 上 是 平稳 的 ， 所 有 历史 数据 平均 值 法 将 永远 提供 最 好 的 结果 。 

假设 基本 的 时 间 序 列 是 不 平稳 的 ， 在 第 17. 1 节 我 们 曾 提 到 ， 经 济 条 件 的 改变 常常 导致 有 水 平 模式 的 时 间 序 
列 移动 到 一 个 新 的 水 平 。 我 们 讨论 汽油 批发 商 与 佛蒙特 州 警方 签署 了 一 份 合同 ， 给 位 于 佛蒙特 州 南 部 的 警车 加 
油 。 表 17-2 中 给 出 了 汽油 销售 量 的 原始 时 间 序 列 以 及 签署 了 新 合同 后 10 周 的 销售 量 数据 。 图 17-2 是 相应 的 时 间 
序列 图 。 注 意 ， 由 此 产生 的 时 间 序 列 第 13 周 的 水 平 改变 了 。 当 这 种 移动 到 新 水 平 的 情况 出 现时 ， 用 所 有 历史 数 
据 平均 值 法 调整 到 时 间 序 列 的 新 水 平 需要 很 长 时 间 。 在 这 种 情形 下 ， 简 单 的 朴素 方法 对 水 平 的 改变 调整 迅速 ， 因 
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为 它 用 最 近 一 期 的 观测 值 作为 预测 值 。 

在 比较 不 同 预测 方法 时 ， 预 测 精度 的 测度 是 一 个 重要 因素 。 但 是 ， 我 们 需要 小 心 ， 不 能 完全 依赖 它们 。 当 选 
择 预 测 方法 时 ， 对 有 可 能 影响 预测 的 经 济 状况 的 良好 判断 和 知识 也 应 该 仔细 考虑 。 同 时 历史 预测 精度 不 是 唯一 的 
考虑 因素 ， 时 间 序 列 未 来 有 可 能 改变 的 情形 下 尤为 如 此 。 

在 下 一 节 我 们 将 介绍 对 呈现 水 平 模式 的 时 间 序 列 进 行 预测 的 更 完善 的 方法 。 用 这 里 介绍 的 预测 精度 的 测度 ， 
我 们 将 确定 用 下 一 节 介绍 方法 得 到 的 预测 比 用 本 节 介 绍 的 简单 方法 得 到 的 预测 更 为 准确 。 我 们 将 介绍 的 这 些 方 法 
能 较 好 地 适应 时 间 序 列 改 变 到 一 个 新 水 平 的 情形 。 预 测 方法 快速 适应 水 平 改变 的 能 力 是 重要 的 考虑 因素 ， 尤 其 是 
对 短期 预测 情形 。 





方法 4. 考虑 下 列 时 间 序 列 数 据 : 





月 ] 业 3 4 5 6 7 
数值 24 13 20 12 19 23 135 


a. 计算 用 最 近 一 期 数值 作为 下 一 期 预测 值 的 MSE。 





六 2, 参考 第 1 题 的 时 间 序 列 数据 。 用 所 有 历史 数据 平均 
值 作 为 下 一 期 预测 值 。 计 算 下 列 预 测 精度 的 测度 。 


ot 8 月 的 预测 值 是 多 少 ? 
Pe b. 计算 用 所 有 数值 的 平均 值 作 为 下 一 期 预测 值 的 
&。 C 


MSSE。8 月 的 预测 值 是 多 少 ? 
7 上皇 中 六 


17.3 移动 平均 法 和 指数 平滑 法 


本 节 我 们 将 讨论 适合 有 水 平 模式 的 时 间 序 列 的 3 种 预测 方法 : 移动 平均 法 、 加 权 移 动 平均 法 和 指数 平滑 法 。 
这 些 方 法 能 很 好 地 适应 水 平 模式 的 水 平 数值 的 改变 ， 比 如 我 们 看 到 的 汽油 销售 量 的 扩展 时 间 序 列 《〈 表 17-2 和 
图 17-2)。 但 是 ， 当 有 明显 的 趋势 、 循 环 或 季节 影响 时 ， 这 些 方法 未 经 修正 是 不 适合 的 。 由 于 每 一 种 方法 的 目的 
都 是 为 了 “消除 ”时 间 序 列 的 随机 波动 ， 因 此 它们 都 被 称 为 平滑 方法 。 这 些 方 法 易于 使 用 ， 通 常 对 短期 预测 ， 例 
如 下 一 个 时 期 的 预测 ， 可 以 提供 较 高 的 精度 水 平 。 


17. 3.1 移动 平均 法 
移动 平均 法 (moving average) 使 用 时 间 序 列 中 最 近期 数据 值 的 平均 数 作为 下 一 个 时 期 的 预测 值 。 在 数学 
上 ， 大 阶 移动 平均 预测 如 下 : 


mn 
oy 
Wi 


Do 
员 hy 





术语 移动 的 含义 是 ， 每 次 使 用 时 间 序 列 的 新 观测 值 ， 用 它 代替 公式 中 最 旧 的 观测 值 ， 从 而 计算 出 一 个 新 的 平 
均 数 。 因 此 ， 当 使 用 新 观测 值 时 ， 平 均 数 将 会 改变 或 者 移动 。 

为 了 说 明 移 动 平均 法 ,我 们 回 到 表 17-1 和 图 17-1 的 汽油 销售 量 数据 。 图 17-1 的 时 间 序 列 图 表明 汽油 销售 量 
时 间 序 列 具 有 水 平 模式 。 因 此 ， 本 节 的 平滑 方法 是 适用 的 。 

为 了 用 移动 平均 法 来 预测 时 间 序 列 ， 首 先 我 们 应 选择 移动 平均 法 的 阶 或 所 包含 的 时 间 序 列 值 的 个 数 。 如 果 仅 
仅 考 虑 时 间 序 列 最 近 的 值 被 认为 是 相关 的 ， 则 应 选择 较 小 的 大 值 ;， 如 果 更 多 过 去 的 值 被 认为 是 相关 的 ， 则 较 大 的 
k 值 较 好 。 在 前 面 提 到 过 ， 具 有 水 平 模式 的 时 间 序 列 随 时 间 的 推移 能 移动 到 一 个 新 的 水 平 。 移 动 平均 将 适应 序列 
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的 新 水 平 ， 并 重新 给 出 在 个 时 期 的 好 的 预测 值 。 因 此 ， 较 小 的 大 值 将 更 快速 追踪 时 间 序 列 的 移动 ， 而 较 大 的 大 值 
将 随 着 时 间 的 推移 更 有 效 地 消除 随机 波动 。 因 此 ， 以 对 时 间 序 列 态势 的 了 解 为 依据 的 管理 判断 ， 是 有 助 于 选择 一 
个 合适 的 上 值 的 。 
为 了 说 明 如 何 用 移动 平均 法 预测 汽油 的 销售 量 ， 我 们 使 用 3 周 移动 平均 (k=3)。 首 先 我 们 用 第 1 ~3 周 的 时 
间 序 列 值 的 平均 数 作为 第 4 周 销售 量 的 预测 值 。 
17 +2l1 + 19 


= 
因此 ， 第 4 周 汽油 销售 量 的 移动 平均 预测 值 为 19 或 19 000 加 仑 。 因 为 第 4 周 的 实际 值 为 23， 所 以 第 4 周 的 预 


测 误差 为 23 -19=4。 
接 下 来 ， 我们 用 第 2 ~4 周 时 间 序 列 值 的 平均 数 计算 第 5 周 销售 量 的 预测 值 。 


及 = 第 2 ~4 周 的 平均 数 = 一 = 


因此 ， 第 5 周 销售 量 的 预测 值 为 21， 预 测 误差 为 17 -21 = -3。 表 17-9 给 出 了 汽油 销售 量 时 间 序 列 的 3 周 的 
移动 平均 预测 值 的 全 部 汇总 ， 图 17-7 是 原始 时 间 序 列 图 和 3 周 移动 平均 预测 图 。 注 意 ， 移 动 平均 预测 图 显示 出 已 
经 消除 了 时 间 序 列 的 随机 波动 。 


21] 


表 17-9 3 周 移动 平均 计算 的 汇总 表 


移动 平均 预测 误差 的 。 预测 误差 百分数 误差 
预测 误差 分 数 ; 
周 时 间 序列 什 预测 什 测 绝对 什 的 平方 百分数 误差 的 绝对 什 
1 17 
2 21 
3 19 
全 23 19 4 站 16 17. 39 17. 39 
5 18 21 一 3 3 =16.67 16.67 
6 16 20 一 站 4 16 -25. 00 25. 00 
大 20 19 1 ] 1 5. 00 $5. 00 
8 18 18 0 0 0 0. 00 0. 00 
9 22 18 44 4 16 18., L8 18, 18 
10 20 20 0 0 0 0. 00 0. 00 
11 15 20 一 5 25 一 33. 33 33. 33 
12 22 19 区 3 9 13.64 13; 64 
合计 0 24 92 一 20. 79 129. 21 
25 
20 
外 
上 15 
3 周 移动 平均 预测 什 
- 





图 17-7 汽油 销售 量 的 时 间 序 列 图 和 3 周 的 移动 平均 预测 值 
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为 了 预测 第 13 周 ， 即 未 来 的 下 一 时 期 的 销售 量 ， 我们 简单 地 计算 第 10 周 , 第 11 周 和 第 12 周 时 间 序 列 的 平均 数 。 
,= 第 10 ~ 人 2 周 的 平均 六 = 全 = 
因此 ,第 13 周 的 预测 值 为 19 或 19 000 加 仑 汽油 。 


预测 精度 ”在 第 17. 2 节 我 们 讨论 了 3 种 预测 精度 的 测度 : MAE，MSE 和 MAPE。 利 用 表 17-9 的 3 周 移动 平均 
的 计算 结果 ，3 种 预测 精度 的 测度 分 别 为 : 


19 


MAE = 和 -= 2.67 


MSE = 总 - 10.22 


MAPE = 


在 第 17. 2 节 我 们 还 给 出 了 用 最 近 一 期 的 观测 值 作为 下 一 周 的 预测 值 (k=1 阶 的 移动 平均 ) 的 结果 为 : 
MAE =3.73，MSE =16.27 和 MAPE = 19.24%。。 因 此 ， 在 每 一 种 情况 下 ，3 周 移 动 平均 方法 都 比 简单 地 用 最 近 的 
观测 值 作为 预测 值 给 出 了 更 准确 的 预测 。 

为 了 确定 使 用 不 同 的 阶 数 上 的 移动 平均 数 是 否 可 以 给 出 更 准确 的 预测 ， 我 们 建议 用 试验 和 误差 来 确定 使 MSE 达 
到 最 小 的 大 值 。 对 汽油 销售 量 时 间 序 列 ， 能 够 证 明 ，MSE 的 最 小 值 对 应 于 k=6 阶 的 移动 平均 ， 其 MSE =6.79。 如 果 我 
们 愿意 假定 ， 对 历史 数据 最 合适 的 移动 平均 数 的 阶 数 对 未 来 值 也 是 最 合适 的 ， 则 用 k=6 阶 的 移动 平均 可 以 得 到 
汽油 销售 量 最 准确 地 移动 平均 预测 。 


17. 3.2 ”加权 移动 平均 法 


在 移动 平均 法 中 ,移动 平均 数 计算 中 的 每 个 观测 值 都 使 用 相同 的 权重 。 一 种 称 为 加 权 移动 平均 (weighted 
moving average) 的 方法 对 此 做 了 改变 ， 即 对 每 个 数据 值 选择 不 同 的 权重 ,然后 计算 最 近期 数据 值 的 加 权 平 均 数 
作为 预测 值 。 在 大 多 数 情 况 下， 最 近 时 期 的 观测 值得 到 最 大 的 权重 ， 而 减少 较 远 期 的 观测 值 的 权重 。 让 我 们 用 汽 
油 销 售 量 时 间 序 列 来 说 明 3 周 加 权 移 动 平均 数 的 计算 。 我 们 指定 最 近 时 期 观测 值 的 权重 为 3/6, 第 二 近 的 观测 值 
的 权重 为 2.6, 第 三 近 的 观测 值 的 权重 为 1/6。 用 加 权 移动 平均 ,第 4 周 的 预测 值 计 算 如 下 : 


第 4 周 的 预测 值 = 二 x 17 + x21 + 二 X 了 .9 = 19.33 


注意 ， 加 权 移 动 平均 方法 的 权重 之 和 应 该 等 于 1°。 

预测 精度 ”为 了 使 用 加 权 移 动 平 均 法 ， 我 们 首先 应 该 选择 加 权 移 动 平均 数 中 所 包含 的 数据 值 个 数 ， 然 后 对 每 
个 数据 值 选择 权重 。 在 一 般 情形 下 ， 如 果 我 们 相信 ， 最 近 的 数据 比 过 去 的 数据 能 更 好 地 预测 未 来 ， 则 我 们 应 该 给 
较 近 的 观测 值 更 大 的 权重 。 但 是 ， 当 时 间 序 列 的 波动 较 大 时 ， 对 每 个 数据 值 选 择 近似 相等 的 权重 也 许 是 最 好 的 方 
法 。 选 择 权重 的 唯一 要 求 是 它们 的 总 和 必须 等 于 1。 为 了 确定 数据 值 个 数 和 权重 的 一 个 特殊 组 合 是 否 比 其 他 组 合 
提供 了 更 精确 的 预测 ， 我 们 建议 使 用 MSE 作为 预测 精度 的 测度 。 即 如 果 我 们 假定 能 最 好 地 反映 过 去 的 这 个 组 合 也 
能 最 好 地 反映 未 来 ， 我 们 将 使 用 对 历史 时 间 序 列 的 MSE 达到 最 小 的 数据 值 个 数 和 权重 的 组 合 ， 来 预测 时 间 序 列 下 
一 个 时 期 的 数值 。 


17. 3. 3 指数 平滑 法 
指数 平滑 法 (exponential smoothing) “也 是 利用 过 去 的 时 间 序 列 值 的 加 权 平 均 数 作为 预测 值 ; 它 是 加 权 移 动 平 


2 2 二 14 36% 


日 、 在 需要 比较 不 同时 间 长 度 的 预测 方法 时 ， 如 比较 周 销售 量 的 预测 与 月 销售 量 的 预测 ， 相 对 测度 MAPE 是 首选 。 

加 人 =3 阶 的 移动 平均 预测 恰好 是 加 权 移动 平均 的 特例 ， 其 每 个 权重 都 是 1/3。 

四 ”还 有 一 些 指数 平滑 法 。 这 里 介绍 的 方法 常常 被 称 为 单一 指数 平滑 法 。 在 下 节 我 们 将 演示 如 何 用 两 个 平滑 常数 的 指数 平滑 法 来 预测 有 
线性 趋势 的 时 间 序 列 。 
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均 法 的 一 个 特例 ， 即 我 们 只 选择 一 个 权重 一 一 最 近 时 期 观测 值 的 权重 。 其 他 数据 值 的 权重 可 以 自动 推算 出 来 ， 并 
且 随 着 观测 值 距离 预测 期 越 远 ， 权 重 也 变 得 越 小 。 指 数 平滑 法 的 基本 方程 如 下 : 
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式 (17-2) 表明 ;+1 期 的 预测 值 是 ;期 的 实际 值 和 预测 值 的 加 权 平 均 数 ,i 期 实际 值 的 权重 为 平滑 常数 
(smoothing constant) a,，t 期 预测 值 的 权重 为 1 -a。 可 以 证 明 ， 任何 时 期 的 指数 平滑 预测 值 实 际 上 是 时 间 序 
列 所 有 过 去 实际 数据 的 一 个 加 权 平 均 数 。 让 我 们 通过 一 个 仅 包 含 三 个 时 期 数据 Y ，Y, 和 了 的 时 间 序 列 来 
说 明 。 

开始 计算 ， 我 们 令 等 于 时 间 序 列 1 期 的 实际 值 ， 即 F, = Y,。 因 此 ，2 期 的 预测 值 为 

hb = a (1 =a =a (1 = Y= 

我 们 看 到 ，2 期 的 指数 平滑 预测 值 等 于 时 间 序 列 1 期 的 实际 值 。 

3 期 的 预测 值 为 

F, = aY, + (1 -Fh, = oa, + (1 -a)Y, 
最 后 ,将 F 的 表达 式 代 入 FF, 的 表达 式 中 ， 我 们 得 到 
Fi=aY +(l-a)F, =aY+(l-a)[layY,+(l -a)Y | 
= QaY, +a(l -Qa)Y, + (1 = oa)’Y. 

现在 我 们 看 到 ，F, 是 前 三 个 时 间 序 列 数 值 的 加 权 平 均 数 ，Y, ，Y, 和 鸣 的 系数 或 权重 之 和 等 于 1。 在 一 般 情形 下 ， 
一 个 类 似 的 结论 可 以 表述 为 : 任何 预测 值 ,是 所 有 时 间 序 列 过 去 数值 的 加 权 平 均 数 。 

尽管 指数 平滑 法 提供 的 预测 值 是 所 有 过 去 观测 值 的 加 权 平 均 数 ,但 是 并 不 需要 保存 过 去 所 有 的 数据 ， 以 计算 
下 一 个 时 期 的 预测 值 。 事 实 上 ， 式 (17-2) 表明 ， 一 旦 选 定 了 平滑 常数 a 的 值 ,我 们 仅仅 需要 两 项 的 信息 就 可 计 
算 预 测 值 : 上 期 时 间 序 列 的 实际 值 了 和 :期 的 预测 值 Ff.。 

为 了 说 明 指数 平滑 法 ， 让 我 们 再 次 考虑 表 17-1 和 图 17-1 中 的 汽油 销售 量 时 间 序 列 。 如 上 所 述 ， 开 始 计算 时 ， 
我 们 设 2 期 的 指数 平滑 预测 值 等 于 时 间 序 列 1 期 的 实际 值 。 于 是 ， 因 为 Y=17， 我 们 得 到 ,=17。 参 考 表 17-1 的 
时 间 序 列 数 据 ， 我 们 发 现时 间 序列 2 期 的 实际 值 Y=21。 因 此 ,2 期 的 预测 误差 为 21 -17 =4。 

利用 平滑 常数 a =0. 2 继续 进行 指数 平滑 计算 。 我 们 可 以 得 到 3 期 的 预测 值 如 下 

R02 Hl OB x A = 1T8 
一 旦 得 到 时 间 序 列 3 期 的 实际 值 ”=19， 我 们 就 可 以 得 到 4 期 的 预测 值 如 下 : 
Fi =0.2xY +0.8xF:=0.2x19+0.8x178 = 18.04 

继续 进行 指数 平滑 计算 ， 我们 得 到 表 17-10 所 示 的 周 预 测 值 。 注 意 ， 我 们 没有 给 出 第 1 周 指数 平滑 预测 值 或 
预测 误差 ,这 是 因为 没有 办 法 做 出 预测 。 对 第 12 周 , 我 们 有 mm。 =22，F, = 18. 48。 我 们 能 利用 这 些 信息 得 到 第 
13 周 的 预测 值 为 

Fs 二 02XxIa+08XxE =02x22 +0%8x1848 = 19.18 

因此 ， 第 13 周 销售 量 的 指数 平滑 预测 值 为 19. 18 千 加 仓 或 19180 加 仓 的 汽油 。 根 据 这 个 预测 值 ， 公 司 可 以 制定 计 
划 和 作出 决定 。 
图 17-8 是 时 间 序 列 的 实际 值 和 预测 值 的 图 。 尤 其 要 注意 的 是 ， 预 测 值 “ 消 除 ” 了 时 间 序 列 中 的 不 规则 或 


加 ”指数 平滑 术语 来 自 对 历史 数据 进行 加 权 的 指数 性 质 。 
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随机 波动 。 





表 17-10 平滑 常数 wa =0. 2 的 汽油 销售 量 时 间 序 列 的 2 
指数 平滑 预测 和 预测 误差 的 汇总 表 实际 时 间 按 序列 
预测 误差 
周 “时 间 序 列 值 ”预测 值 ”预测 误差 。 的 平方 1 
1 17 DY 
2 21 17. 00 4, 00 16. 00 81s 
3 19 17. 80 1.20 1.44 一 cx=-0.2 的 预测 时 间 序 列 
4 23 18. 04 4. 96 24. 60 | 
分 18 19. 03 一 1.03 1.06 二 
6 16 18. 83 一 2.83 8. 01 
7 20 18. 26 1.74 3, 03 
8 18 18.61 =0.6] 0.37 
9 29 18. 49 人 12. 32 
10 20 19. 19 0. 81 0. 66 "EE HE 
11 15 19. 35 -4.35 18,92 周 
人 图 17-8 实际 汽油 销售 量 和 平滑 常数 =0.2 的 
A 项 测 汽油 销售 量 的 时 间 序列 


预测 精度 ”在 前 面 的 指数 平滑 计算 中 ， 我们 使 用 的 平滑 常数 a=0.2。 尽 管 a 取 0 和 1 之 间 的 任何 值 都 是 可 以 
接受 的 , 但 是 有 些 a 值得 到 的 预测 值 比 其 他 a 值 更 好 。 为 了 观察 如 何 得 到 一 个 合适 的 wa 值 ， 将 基本 指数 平滑 模型 
改写 如 下 : 


F,, = aY¥, 中 性 = 
Fu =Qa+F 一 CR 
ps a Pt FY (17-3) 


因此 ， 新 的 预测 值 五 ,,, 等 于 过 去 的 预测 值 到 加 上 一 个 调整 值 ， 这 个 调整 值 等 于 a 乘 以 最 近 时 期 的 预测 误 
差 (了 -了 )。 即 通过 调整 1 期 的 预测 值 和 一 部 分 预测 误差 ， 我 们 就 可 以 得 到 t+1 期 的 预测 值 。 如 果 时 间 序 列 包 
含 大 量 的 随机 波动 ， 我 们 倾向 于 选择 较 小 的 平滑 常数 。 这 样 选择 的 原因 是 : 大 多 数 预 测 误差 是 由 随机 波动 引 
起 的 ， 我 们 不 希望 对 预测 做 出 过 度 的 反应 和 过 快 的 调整 。 对 随机 波动 相对 较 小 的 时 间 序 列 ， 预 测 误差 更 可 能 
表示 序列 水 平 的 改变 。 于 是 ， 选 用 较 大 的 平滑 常数 的 优点 是 迅速 调整 预测 ， 这 使 得 预测 对 改变 的 条 件 反应 更 
迅速 。 

我 们 用 来 确定 平滑 常数 a 合理 值 的 准则 ， 与 我 们 建议 的 确定 所 包含 在 移动 平均 数 计算 中 的 阶 数 或 数据 时 期 个 
数 的 准则 相同 。 也 就 是 说 ,我们 选择 MSE 达到 最 小 的 a 值 。 对 于 a=0.2 的 汽油 销售 量 指数 平滑 预测 ， 表 17-10 
给 出 了 MSE 的 计算 结果 汇总 。 注 意 ， 预 测 误差 平方 项 比 周 数 少 一 项 ， 这 是 因为 我 们 没有 过 去 的 数据 作为 1 期 的 预 
测 值 。 预 测 误差 平方 和 的 值 为 98. 80， 因 此 MSE =98. 80/11 =8. 98。 就 较 小 的 MSE 而 言 ， 不 同 的 a 值 能 否 提 供 一 
个 较 好 的 结果 呢 ? 也 许 回 答 这 个 问题 最 简单 的 方法 是 用 另 一 个 a 值 来 试验 ， 然 后 将 所 得 到 的 MSE 与 用 平滑 常数 
a =0.2 得 到 的 MSE =8.98 进行 比较 。 

表 17-11 是 用 w=0.3 得 到 的 指数 平滑 预测 结果 ， 预 测 误差 平方 和 的 值 为 102. 83， 因 此 MSE = 102. 83/11 = 
9.35。 由 于 MSE =9. 35， 我 们 看 到 ， 对 当前 数据 集 ， 使 用 平滑 常数 w =0. 3 得 到 的 结果 比 使 用 平 谐 常 数 a =0. 2 得 
到 的 结果 的 预测 精度 要 差 。 于 是 ， 我 们 倾向 于 选择 原来 的 平滑 常数 a =0.2。 对 甚 他 的 w 值 ， 利 用 反复 试验 的 计算 
方法 ， 我们 可 以 找到 一 个 “好 ”的 平滑 常数 值 。 这 个 数值 可 以 用 于 指数 平滑 模型 来 预测 未 来 。 以 后 的 数据 ， 即 我 
们 得 到 时 间 序 列 的 新 的 观测 值 以 后 ， 将 分 析 这 个 新 搜集 的 时 间 序 列 数 据 ， 决 定 是 否 应 调整 平滑 常数 以 得 到 更 好 的 
预测 结果 。 
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表 17-11 平滑 常数 a=0. 3 的 汽油 销售 量 时 间 序 列 的 指数 平滑 预测 和 预测 误差 的 汇总 表 


周 时 间 序 列 值 预测 值 
I 17 

2 21 17.00 
3 19 18. 20 
4 23 18. 44 
5 18 19. 81 
6 16 19. 27 
7 20 18. 29 
8 18 18. 80 
9 22 18. 56 
10 20 19. 59 
11 15 19.71 
12 22 18. 30 

全 i 


注释 和 评论 





预测 误差 预测 误差 的 平方 
4.00 16. 00 
0. 80 0. 64 
4. 56 20.79 
-1.81 3. 28 
=3,27 10. 69 
1.71 2.92 
-0.80 0.64 
3:44 11. 83 
0. 41 0. 17 
人 22. 18 
3.70 13. 69 
8. 03 102. 83 


1. 电子 制 表 软 件 包 是 一 种 有 效 的 辅助 工具 ， 可 以 用 于 选择 指数 平滑 法 中 合适 的 a 值 。 利用 时 间 序 列 的 数据 和 
电子 制 表 软件 包 中 的 预测 公式 ， 你 可 以 试验 使 用 不 同 的 a 值 ， 并 用 一 个 或 多 个 预测 精度 的 测度 (MAE、 


MSE 或 MAPE) 选择 出 预测 误差 最 小 的 w 值 。 

2. 我 们 在 平稳 时 间 序 列 的 背景 下 讨论 移动 平均 法 和 指数 平滑 法 。 这 些 方法 也 可 以 用 于 水 平 改 变 但 没有 呈现 趋 
势 或 季节 的 非 平 稳 时 间 序 列 的 预测 。 较 小 大 值 的 移动 平均 比较 大 大 值 的 移动 平均 适应 得 更 快 。 平 滑 常 数 接 
近 于 1 的 指数 平滑 模型 比较 小 平滑 常数 的 模型 适应 得 更 快 。 





方法 
6. 考虑 下 列 时 间 序 列 数据 : 


月 1 a 3 4 5 6 7 
数值 24 13 20 12 19 91s 


绘制 时 间 序 列 图 ， 数 据 中 哇 现 何 种 类 型 的 模式 ? 

a. 计算 时 间 序 列 3 个 月 移动 平均 预测 值 ， 计 算 MSE 
和 8 月 的 预测 值 。 

b. 计算 时 间 序 列 m=0.2 的 指数 平滑 预测 值 。 计 算 
MSE 和 8 月 的 预测 值 。 

c. 比较 3 休 月 移动 平均 法 和 wa=0.2 的 指数 平滑 法 ， 
基于 MSE,， 哪 种 方法 给 出 了 更 准确 的 预测 ? 

d. 计算 平滑 常数 a =0.4 的 指数 平滑 预测 值 。 基 于 
MSE, 平滑 常数 0.2 还 是 0.4 给 出 了 更 准确 的 预 
测 ? 请 解释 。 

8. 再 次 参见 表 17-1 中 的 汽油 销售 量 的 时 间 序 列 。 

a. 令 1/2，1/3 和 1V6 分 别 为 最 近 的 、 第 二 近 和 第 三 
近 的 观测 值 的 权重 ,计算 时 间 序 列 的 3 周 加 权 移 
动 平 均 数 。 

b. 计算 (a) 的 加 权 移 动 平 均 数 的 MSE。 在 加 权 移 








动 平 均 数 和 不 加 权 移 动 平均 数 中 ， 你 更 倾向 于 哪 

一 种 方法 ? 不 加 权 移 动 平均 的 MSE 为 10.22。 

6. 假设 允许 你 选择 任何 总 和 为 1 的 权重 。 你 是 否 总 
能 找到 这 样 一 组 权重 ,使 得 加 权 移 动 平均 法 的 
MSE 指数 比 不 加 权 移 动 平 均 法 的 MSE 要 小 ? 请 
解释 。 

10. 对 表 17-1 的 教 据 ， 使 用 平滑 常数 w=02， 式 (17-2) 
表明 第 13 周 汽油 销售 量 的 预测 值 为 FF =0,2Y, + 
0.8Fi,。 然 而 ,第 12 周 的 预测 值 为 F, =0,.27 ,+ 
0.8Piis。 因此 ， 将 这 两 个 结果 合并 起 来 ,第 13 周 
的 预测 值 可 以 写 为 

Fs QDs 0. 8.xa( 0 2 +0.88. ) 
= 0.2Y,+0.16Y, +0.64F; +0.64F' 
a 根据 看 ,=02Z+0.8F (对 Fs 和 忆 , 类似 )， 
继续 扩展 Fi 的 表达 式 ， 直 到 它 表 示 为 过 去 数据 
值 了 oa， yi， Yi ys ， 和 第 8 期 预测 值 为 止 。 
b. 参阅 过 去 数据 值 了 ,，Yi，Yio，Y。 入 的 系数 

或 权重 。 对 指数 平滑 法 在 得 到 新 预测 值 时 ， 是 

如 何 对 过 去 数值 分 配 权 重 的 ， 你 有 什么 样 的 观 

测 结果 ? 请 将 这 个 加 权 形 式 与 移动 平均 法 的 加 
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权 形 式 进行 比较 。 MSE ， 平 滑 常数 0.3 和 0.5 哪个 提供 更 准确 的 预测 ? 
应 用 16. 美国 人 口 普查 局 追踪 每 年 各 月 新 房 销 售 价格 的 中 
12, 下 面 是 某 个 公司 AAA 级 债券 在 连续 12 个 月 中 的 利率 。 位 数 。 下 面 是 1990 ~ 2011 年 4 月 价格 的 中 位 数 
Go oa 96 98 97 08 (U.S. Census Bureau website，2012 年 4 月 16 日 )。 
10.5 :9.9 9.7 9.6 9.6 价格 价格 


a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 7? (1 000 美元 ) (1 000 美元 ) 
b. 计算 时 间 序 列 的 3 个 月 和 4 个 月 的 移动 平均 数 。 
基于 MSE,，3 个 月 或 4 个 月 的 移动 平均 数 是 否 提 
供 准 确 的 预测 ? 请 解释 。 
c. 下 一 个 月 的 移动 平均 预测 值 是 多 少 ? 
14. 下 面 是 某 种 特定 产品 在 过 去 12 个 月 中 销售 量 的 时 
间 序 列 。 





a, 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 
针对 这 个 时 间 序 列 ， 对 有 可 能 导致 时 间 序 列 图 
模式 的 一 些 因 素 进行 讨论 。 

b. 指出 (a) 中 绘制 的 时 间 序 列 图 的 模式 ， 你 是 否 
认为 本 节 所 讨论 的 预测 方法 是 计算 预测 值 的 适 





a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 合 方法 ? 请 解释 。 
b. 计算 时 间 序 列 的 w=0.3 的 指数 平滑 预测 值 。 c， 你 会 使 用 过 去 多 少数 据 来 预测 2012 年 4 月 的 数 
c. 计算 平 滑 常 数 w =0.5S 的 指数 平滑 预测 值 。 基 于 值 ? 请 解释 。 

17.4 趋势 推测 法 


本 节 我 们 介绍 三 种 适合 于 具有 趋势 模式 的 时 间 序 列 的 预测 方法 。 首 先 ， 我 们 说 明 如 何 用 简单 线性 回归 预测 具 
有 线性 趋势 的 时 间 序 列 。 然 后 ， 我 们 解释 如 何 用 Holt 线性 指数 平滑 法 进行 预测 ， 它 是 单一 指数 平滑 法 的 一 个 推 
广 ， 使 用 两 个 平滑 常数 : 一 个 用 于 解释 时 间 序 列 的 水 平 ， 另 一 个 用 于 解释 数据 中 的 线性 趋势 。 最 后 ， 我 们 演示 如 
何 用 回归 分 析 的 曲线 拟 合 功能 预测 具有 曲线 或 非 线性 趋势 的 时 间 序 列 。 


17. 4. 1 ”线性 趋势 回归 


在 第 17. 1 节 中 我 们 用 表 17-3 和 图 17-3 中 的 自行 车 销售 量 的 时 间 序 列 ， 来 说 明 具 有 趋势 模式 的 时 间 序 列 。 让 
我 们 用 这 个 时 间 序 列 来 解释 如 何 用 简单 线性 回归 预测 具有 线性 趋势 的 时 间 序 列 。 自 行车 销售 量 的 时 间 序 列 的 数据 
再 一 次 出 现在 表 17-12 和 图 17-9 中 。 


表 17-12 自行 车 销售 量 时 间 序 列 


年 销售 量 (1 000 辆 ) 年 销售 量 〈1 000 辆 ) 
1 “2 5 23.9 9 28.6 

2 22.9 6 27.5 10 31.4 

3 25.5 7 31.5 

4 21.9 8 29.7 


尽管 图 17-9 的 时 间 序 列 图 显示 在 过 去 10 年 有 一 些 上 下 波动 ， 但 我 们 可 能 会 同意 ， 图 17-10 中 所 示 的 线性 趋 
势 对 时 间 序 列 的 长 期 变动 提供 了 一 个 合理 的 近似 。 我 们 用 简单 线性 回归 的 方法 〈 见 第 14 章 ) 为 自行 车 销售 量 时 
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间 序 列 建立 一 条 线性 趋势 线 。 


34 
33 
32 
~ 31 
30 
29 
一 28 上 上 
、， 27 上 
Et 
24 
23 
22 
21 
20 








FF | 年 
17-9 ”自行 车 销售 量 时 间 序 列 图 17-10 ”用 线性 函数 描述 自行 车 销售 量 的 趋势 
在 第 14 章 ， 描 述 自 变量 x 和 应 变量 y 之 间 直 线 关系 的 佑 计 回归 方程 为 
y = b 二 -机 和 一 


式 中 ,了 是 y 的 人 秸 计 值 或 预测 值 ， 为 了 强调 在 这 个 预测 中 自 变量 是 时 间 这 一 事实 ,我 们 将 用 :来 代替 x*， 用 7, 来 代 
蔡 六 以 强调 我 们 估计 的 是 时 间 序列 的 趋势 。 因此 ， 对 时 间 序 列 的 线性 趋势 ， 我 们 用 如 下 的 信 计 回归 方程 





“不 式 《如 ! 航 由 ， 时 间 变量 初始 值 := i Ey 
t= 对 应 于 时 间 序列 的 最 近 观察 值 (自行 车 销售 量 时间 序 列 的 第 10 年 ) 。 因 此 ， 对 自行 车 销售 量 时 间 序列 , ! = 1 
对 应 于 最 早 的 时 间 序列 值 ， 而 +=10 对 应 于 最 近 的 年 份 。 

式 (17-4) 中 的 估计 回归 系数 (b&b, 和 4b,) 的 计算 公式 如 下 : 


NTT 


为 了 计生 





利用 这 些 数值 和 表 17-13 中 的 信息 ， 我 们 可 以 计算 自行 车 销售 量 时 间 序列 的 斜率 和 稚 距 。 
加 hi 的 另 一 个 公式 是 
2 ( > py Yn 
于 -( 37 /n 


bl 


，” 当 使 用 计算 器 计算 bi 时 ,往往 会 推荐 式 (17-5) 的 形式 。 
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表 17-13 自行 车 销售 量 时 间 序 列 的 线性 趋势 计算 汇总 表 


t Y, 1 有 | 二 计 Yi=Y Cm 人们 (ts 
I 21:6 -4.5 —4.85 21. 825 20. 25 
2 22.9 =3.5 =3.55 14. 425 12. 25 
3 25.5 一 六 -0.95 2, 375 6. 25 
4 21.9 -人 5 -4.55 6. 825 二 26 
5 23.9 -0.5 -2:35 1; 275 0. 25 
6 27.5 0.5 1.05 0. 525 0. 25 
7 3 1. 3 5.05 T5375 2. 25 
8 29.7 / 3.25 8, 125 6. 25 
9 28.6 3.9 2. 15 J 325 12. 25 
10 31.4 4.5 4. 95 5 20. 25 

合计 55 


264. 5 90. 750 82. 50 
-2 一 90. 75 


b=Y-bt=26.45-1.1x5.5 =20.4 
因此 ， 线 性 趋势 方程 为 
a 

斜率 1. 1 表明 在 过 去 的 10 年 中 ， 工 厂 的 销售 量 每 年 平均 增长 大 约 为 1 100 个 单位 。 如 果 我 们 假定 过 去 10 年 的 
销售 量 趋 势 对 未 来 也 是 合适 的 ， 则 趋势 方程 可 用 来 预测 时 间 序 列 的 趋势 成 分 。 例 如 ,将 +=11 代入 方程 便 可 以 得 
到 下 一 年 的 趋势 预测 值 7 ， 即 

7 = 20.4+1.1x11= 32.5 

因此 ， 利 用 趋势 推测 ， 我们 将 预测 出 下 一 年 的 自行 车 销售 量 为 32 500 辆 。 

为 了 计算 趋势 推测 预测 方法 的 精度 ,我们 将 使 用 均 方 误差 MSE。 表 17-14 给 出 了 自行 车 销售 量 时 间 序 列 误差 
平方 和 的 计算 结果 。 因 此 ， 自 行车 销售 量 时 间 序 列 ， 


MSE = = 3,. OF 
表 17-14 自行 车 销售 量 时 间 序 列 的 线性 趋势 预测 和 预测 误差 的 汇总 表 
年 销售 量 (1 000 辆 ) YY 预测 值 F, 预测 误差 预测 误差 的 平方 
I 21.6 21.5 0. 1 0.01 
2 22.9 22.6 0.3 0.09 
3 25.5 23.7 1,8 3, 24 
4 21.9 24.8 = 8.41 
5 23.9 25.9 = 区 办 4. 00 
6 > 27.0 0.5 0.25 
7 31.5 el 3.4 11. 56 
8 29.7 29.2 0.5 0. 25 
9 28.6 30;3 = 2. 89 
10 31.4 31.4 0.0 0.00 


合计 30. 70 
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在 预测 时 ， 由 于 线性 趋势 回归 使 用 与 第 14 章 介 绍 的 相同 回归 分 析 程 序 ， 我 们 可 以 利用 Minitab 或 Exeel 的 常规 
回归 分 析 程 序 完成 计算 。 图 17-11 是 用 Minitab 回归 分 析 模 块 得 到 的 自行 车 销售 量 时 间 序 列 的 计算 机 输出 结果 。 
The regression equation is 
Y=20.4+1.10t 


Predictor Coef SE Coef TD p 
Constant 20.400 1.338 15.24 0.000 
t 1.1000 02137 5.10 0.001 


S = 1.958 95 R-Sq = 76.5% R-sq (adj) = 73.5% 


Analysis of Variance 


MS F pn 
99.825 26.01 0.001 





图 17-11 自行 车 销售 量 时 间 序 列 的 Minitab 回归 输出 结果 
在 图 17-11 的 方差 分 析 (ANOVA) 表 中 ，MSE 的 值 为 


自由 的 8 
这 个 MSE 值 与 我 们 前 面 计算 的 MSE 值 不 同 ， 这 是 因为 误差 平方 和 除 以 8 而 不 是 10; 于是， 在 回归 输出 中 
MSE 不 是 预测 误差 平方 的 平均 数 。 然 而 ， 大 多 数 预测 软件 包 ， 计 算 MSE 采用 误差 平方 的 平均 数 。 因 此 ， 当 我 们 
用 时 间 序 列 软件 包 建立 趋势 方程 时 ， 报 告 的 MSE 值 可 能 与 你 利用 一 般 回归 方法 得 到 的 值 略 有 不 同 。 例 如 ， 在 
图 17-12 中 ， 我 们 显示 了 用 Minitab's Trend Analysis 时 间 序 列 方法 得 到 计算 机 输出 的 图 示 部 分 ， 注 意 MSD =3. 07 是 
预测 误差 平方 的 平均 数 ”。 
销售 量 (1 000 辆 ) 的 趋势 分 析 图 


线性 趋势 模型 
Y,= 20.40+1.10't 


销售 量 (1 000 辆 ) 
NBN 时 


> 
SS 





图 17-12 自行 车 销售 量 时 间 序 列 的 Minitab 时 间 序 列 线性 趋势 分 析 输 出 结果 


17. 4. 2 ”Holt 线性 指数 平滑 
查尔斯 。 堆 尔 特 (Charles Holt) 建立 了 用 于 预测 具有 线性 趋势 的 时 间 序 列 的 指数 平滑 形式 。 回 顾 第 17.3 节 


全 在 Minitab's Trend Analysis 输出 中 ，MSD 是 离 差 平方 的 平均 数 ， 即 预测 误差 平方 的 平均 数 。 
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讨论 的 指数 平滑 方法 ， 它 使 用 平滑 常数 a“ 消 除 ” 时 间 序 列 中 随机 的 或 不 规 
Fy = a+ (1 -Aah, 





得 到 t+1 期 的 预测 值 。 
Holt 人 exponential smoothing) 方法 用 两 个 平滑 常数 a 和 有 和 三 个 方程 得 到 预测 。 


} 


y 
记 





让 我 们 对 表 17-12 中 的 自行 车 销售 量 时 间 序 列 ， 应 用 < =0. 1， B=0.2 的 Hol 方法 。 为 了 启动 该 方法 ， 我 们 需 
要 时 间 序列 第 工 年 的 水 平 估计 值 五 和 时 间 序 列 第 1 年 的 斜率 估计 值 bs 一 般 方法 是 令 L= 半 ,b= 名 一 了 3。 利用 
此 启动 程序 ， 我 们 得 到 
L 三 .天 ,三 友和 
村 二 3 

对 k=1， 利 用 式 (17-9) 计算 第 2 年 销售 量 的 预测 值 为 f=L +5, =21.6 +1.3x1=22.9。 然后 ， 我 们 继续 
利用 式 (17-7) ~ 式 (17-9) ， 计 算 第 2 年 水 平和 趋势 的 估计 值 以 及 第 3 年 的 预测 值 。 

首先 ,利用 式 (17-7) 和 平滑 常数 w=0.1， 计 算 时 间 序 列 第 2 年 的 水 平 估计 值 。 

Es Dd 2 .6m WN) =- 229 

注意 21 6+1.3 是 第 2 年 销售 量 的 预测 值 。 因 此 ， 利 用 式 (17-7) 得 到 时 间 序 列 第 2 年 的 水 平 估计 值 ， 是 第 2 
年 的 观测 值 (用 权重 a=0.1) 和 第 2 年 的 预测 值 (用 权重 1 -a=1 -0.1=0.9) 的 加 权 平 均 数 。 一 般 地 ， 对 观测 
值 (Y,) 的 权重 更 多 地 给 以 较 大 的 a 值 ， 而 对 预测 值 (L_， + 6,，) 的 权重 更 多 地 给 予 较 小 的 值 。 

接 下 来 我 们 利用 式 (17-8) 和 平滑 常数 B=0.2， 计 算 时 间 序 列 第 2 年 的 斜率 估计 值 

bs = 02 X29 280 (1 -0 2 13s13 

时 间 序 列 第 2 年 的 斜率 估计 值 是 时 间 序 列 第 2 年 与 第 1 年 水 平 的 估计 值 之 差 (用 权重 B=0.2) 和 第 1 年 的 斜 
率 估计 值 (用 权重 1 -8=1-0.2=0.8) 的 加 权 平 均 数 。 一 般 地 ， 对 估计 的 水 平 之 差 的 权重 更 多 地 给 予 较 大 的 
值 ， 而 对 过 去 时 期 斜率 估计 值 的 权重 更 多 地 给 予 较 小 的 值 。 

利用 刚 得 到 L,、%b, 的 估计 值 及 式 (17-9) ， 第 3 年 销售 量 的 预测 值 为 

F, = Eba= 229+1.3xl1 =24.2 

用 类 似 的 方式 进行 计算 ,结果 显示 在 表 17-15 中 。 预 测 误差 的 平方 和 为 39. 678， 因 此 MSE =39. 678/9 =4. 41。 

平滑 常数 a 和 8B 不 同 的 值 能 提供 更 准确 的 预测 吗 ? 为 了 回答 这 个 问题 ,我 们 将 尝试 a 和 8pB 的 不 同 组 合 来 确 
定 ， 是否 可 以 找到 使 MSE 的 值 小 于 4.41 (用 平滑 常数 a=0.1 和 B=0.2 得 到 的 MSE 值 ) 的 一 个 组 合 。 可 以 通过 
反复 测试 或 者 使 用 有 最 佳 平滑 常数 组 合 选项 的 更 高 级 的 统计 软件 包 来 寻找 a 和 合适 的 值 。 

注意 第 10 年 时 间 序 列 的 水 平 估计 值 是 4。=32.220，, 第 10 年 的 斜率 估计 值 为 =1 171。 如 果 我 们 假定 过 去 
10 年 销售 量 的 趋势 对 未 来 是 合适 的 ， 则 可 以 用 式 (18-9) 建立 未 来 时 期 的 预测 值 。 例 如 ,将 上 =11 代入 式 (17-9)， 
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表 17-15 自行 车 销售 量 时 间 序 列 的 Holt 线性 指数 平滑 法 的 计算 汇总 表 


销售 量 (1 000 辆 ) 

六 
21. 6 
22.9 
255 
21.9 
23.9 
27. 5 
25 
29.7 
28.6 
31.4 


水 平 估计 值 
t, 
21. 600 
22. 900 
24. 330 
25. 280 
26. 268 
27. 470 
28. 952 
30. 157 
31. 122 
32. 220 


(& =0.1 和 B=0.2) 


斜率 估计 值 
b, 
1. 300 
1. 300 
1. 326 
1. 251 
1. 198 
1. 199 
1.256 下 
1. 245 
1. 189 
1. 171 


预测 值 
F, 


预测 误差 


预测 误差 的 平方 


14. 108 
6. 924 
0.001 
8.016 
0.257 
7. 851 
0.830 

39. 678 


P =L,+b, xl = 32.220 +1.171 = 33.391 
于 是 ， 用 Holt 线性 指数 平滑 法 我 们 得 到 下 一 年 自行 车 销售 量 的 预测 值 为 33 391 辆 。 


17.4. 3 非 线性 趋势 回归 


用 线性 函数 来 拟 合 趋势 是 很 常见 的 。 然 而 ， 正 如 我 们 前 面 讨论 的 ， 有 时 时 间 序列 有 曲线 或 非 线性 趋势 。 作 为 
一 个 例子 我 们 考虑 胆固醇 药物 前 10 年 的 销售 收入 《单位 ， 100 万 美元 ) 。 表 17-16 是 时 间 序列 ， 图 17-13 是 相应 的 
时 间 序 列 图 。 例 如 ， 第 1 年 的 收入 是 23. 1 百 万 美元 ; 第 2 年 的 收入 是 21. 3 百 万 美元 ， 依 此 类 推 。 时 间 序 列 图 显 
示 有 一 个 总 体 增长 或 向 上 的 趋势 ， 但 是 与 自行 车 销售 量 时 间 序 列 不 同 ， 线 性 趋势 似乎 并 不 合适 。 相 反 ， 在 拟 合 长 
期 趋势 时 ， 似 乎 需要 一 个 曲线 函数 。 


表 17-16 胆固醇 药物 销售 收入 的 时 间 序 列 120 
年 (4 销售 收入 〈100 万 美元 ) 100 
1 23. 1 
2 21.3 80 
< 
3 27.4 “可 
4 34.6 表 
5 33.8 40 
6 43.2 
20 
7 59.5 
er 6 yi 
9 74.2 
10 99.3 


17-13 ”胆固醇 药物 销售 收入 的 时 间 序 列 图 (100 万 美元 ) 


二 次 趋势 方程 (quadratic trend equation) ”各 种 非 线 性 函数 能 用 来 建立 胆固醇 时 间 序 列 的 趋势 估计 。 例 如 ， 
考虑 下 面 的 二 次 趋势 方程 : 
T = 6b, +bt+ br 
对 于 胆固醇 时 间 序 列 ，: =1 对 应 于 第 1 年 ,上 :=2 对 应 于 第 1 年 ， 依 此 类 推 。 


在 第 16. 1 节 讨 论 的 一 般 线 性 模型 可 以 用 于 计算 b,，6, 和 b, 的 值 。 有 两 个 自 变量 : 年 份 和 年 份 的 平方 ,应 变 


(17:-10) 
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量 是 以 100 万 美元 计 的 销售 收入 。 因 此 ， 第 一 个 观测 值 是 (1 1; 23.1); 第 二 个 观测 值 是 (2, 4，21.3) ， 第 三 
个 观测 值 是 (3，9，27.4) ， 以 此 类 推 。 图 17-14 显示 了 三 次 趋势 模型 的 Minitab 多 元 回归 输出 结果 ; 估计 的 回归 
方程 为 
销售 收入 (100 万 美元 ) = 24.2 -2.11Year + 0.922YearSq 
式 中 ，Year 为 了 2，3,，…:, 10; YearSq 为 1], 4,9,…，100。 


The regression eqgqtiation is 
Revenue = 24.2-2.1l1 Year + 0.922 YearSqg 


Predictor Coef SE CoetE 

Constant 24.182 4.6716 Sy 
Year =2,106 .953 -1.08 
YearSsg 0.921 6 dm i73 0 5.33 


S=3.97578 R-Sg=98.1% R-S9 (adJ) 三 9 有 .6% 


Analysis of Variance 


SOURCE DF SS MS F p 
Regression 之 大， 和 
Residual Error 7 i106 5 a8 

Total 9 5 880.8 


图 17-14 胆固醇 药物 销售 收入 时 间 序 列 的 Minitab 二 次 趋势 回归 的 输出 结果 


使 用 标准 多 元 回归 程序 需要 我 们 计算 年 份 的 平方 作为 第 二 个 自 变量 值 。 或者， 我 们 利用 Minitab 的 Time Se- 
ries 一 Trend Analysis 程序 得 到 相同 的 结果 。 这 样 做 不 需要 计算 年 份 的 平方 而 且 易于 使 用 。 当 解决 涉及 二 次 趋势 的 
练习 题 时 ， 我 们 推荐 使 用 这 种 方法 。 

指数 趋势 方程 (exponential tiend equation) ” 另 一 种 用 于 模拟 胆固醇 时 间 序 列 的 非 线性 模式 ， 是 用 指数 模型 来 拟 
合 这 些 数据 。 例 如 ， 考 虑 如 下 指数 趋势 方程 





生 二 大 (17-11) 

为 了 更 好 地 理解 这 个 指数 趋势 方程 ,假设 5 =20 和 b=1.2, 然后 ,对 于 t=1, T=20 x1.2 =24; 对 于 t=2， 
Ti =20 x1.2 =28.8; 对 于 t=3，7T, =20 x1.2 =34.56。 注 意 ,7 不 像 在 线性 趋势 模型 中 那样 以 一 个 固定 总 量 增 
长 ， 而 是 以 一 个 固定 的 百分比 增长 ， 增 长 的 百分比 为 20% 。 

Minitab 在 它 的 时 间 序 列 模块 中 有 计算 指数 趋势 方程 并 用 这 个 方程 进行 预测 的 功能 。 不 幸 的 是 ，Excel 没有 这 
个 功能 。 但 在 第 16.1 节 我 们 描述 了 如 何 对 式 (17-11) 进行 对 数 变换 ， 一 般 的 线性 模型 方法 可 以 用 来 计算 指数 趋 
势 方程 。 

Minitab 的 时 间 序 列 模块 可 以 非常 容易 地 用 来 建立 指数 趋势 方程 ， 不 需要 涉及 对 数 变换 和 利用 回归 分 析 计 算 指 
数 趋势 方程 。 图 17-15 ， 我 们 显示 了 用 Minitab 的 Time Series 一 Trend Analysis 程序 来 拟 合 指数 趋势 方程 而 得 到 计算 
机 输出 的 图 示 部 分 。 


注释 和 评论 


线性 趋势 回归 的 基础 是 找到 使 预测 误差 平方 和 ， 从 而 使 MSE 达到 最 小 的 估计 的 同 归 方 程 ， 所 以 就 MSE 而 言 ， 
我 们 期 待 线性 趋势 回归 的 表现 优 于 Holt 线性 指数 平滑 。 例如， 自行 车 销售 量 时 间 序 列 ， 用 线性 趋势 回归 的 MSE = 
3.07， 而 用 Holt 线性 指数 平滑 的 MSE =3.97。 当 用 MAE 作为 预测 精度 的 测度 时 ;线性 趋势 回归 同样 提供 更 准确 
的 预测 : 对 自行 车 销售 量 时 间 序 列 ， 线 性 趋 狠 回归 的 MAE =1.32， 而 用 Holt 线性 方法 的 MAE =1.67。 然 而 ， 基 
于 MAPE，Holt 线性 指数 平滑 (MAPE =5.07% ) 的 表现 优 于 线性 趋势 回归 (MAPE =6.42% )。 因 此 ， 对 自行 车 
销售 量 时 间 序 列 ， 哪 一 种 方法 提供 更 准确 的 预测 取决 于 使 用 哪 一 种 预测 精度 的 测度 。 
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销售 收入 的 趋势 分 析 图 


增长 曲线 模型 
7=16.709 8* (1.185 077) 


指数 










测度 
7.3919 
3.1928 
15.0496 


精度 
MAPE 
MAD 
MSD 







图 17-15 ”胆固醇 销售 收入 时 间 序 列 的 Minitab 时 间 序列 指数 增长 趋势 分 析 的 输出 结果 





方法 

18. 参见 第 17 题 的 时 间 序 列 数据 。 用 a=0.3 和 B= 
0.5 的 Holt 线性 指数 平滑 方法 计算 上 =6 的 预测 值 。 

20. 考虑 下 面 的 时 间 序 列 。 


t 1 2 站 4 5 6 7 
Y, 84 60 和 35 30 29 35 


a. 绘制 时 间 序 列 图 ， 数 据 中 哇 现 何 种 类 型 的 模式 ? 
b. 利用 Minitab 或 Excel， 建 立 这 个 时 间 序 列 的 二 
次 趋势 方程 。 

c. 上 =8 的 预测 值 是 多 少 ? 

22.Seneca 儿童 基金 会 (SCF) 是 一 家 为 贫困 儿童 举办 
夏令 营 的 当地 芒 善 机 构 。 近 年 来 基金 会 主席 致力 
于 减少 经 常 性 支出 的 总 额 ， 主 要 因素 是 总 善 机 构 
被 认为 是 独立 机 构 。 下 面 的 数据 表示 用 于 管理 和 
筹集 资金 的 费用 占 SCF 募集 到 的 总 资金 的 比例 。 


年 时 期 (4 费用 (%%) 
2003 1 13.9 
2004 2 12.2 
2005 3 10.5 
2006 4 10.4 
2007 5 I 
2008 6 10.0 
2009 7 8i5 


24. 


到 


绘制 时 间 序 列 图 ,数据 中 呈现 何 种 类 型 的 模式 ? 

， 建立 这 个 时 间 序 列 的 线性 趋势 方程 

c, 预测 2010 年 管理 费用 的 比例 。 

d. 如 果 SCF 保持 当前 减少 管理 费用 的 趋势 ， 要 达 
到 小 于 或 等 于 5 和 % 的 水 平 需要 多 长 时 间 ? 

联邦 储备 经 济 数 据 (Federal Reserve Economic Data ， 

FRED®) 是 一 个 有 3 000 多 个 美国 经 济 时 间 序 列 的 数 

据 库 ， 包 含有 外 汇 汇率 的 历史 数据 。 下 面 是 美国 和 中 

国 的 外 汇 汇 率 数 据 (Federal Reserve Bank of St Louis 

website) ， 汇 率 单 位 是 1 美元 沈 换 人 民 币 元 的 数量 , 


| 


年 月 汇率 
2007 10 7. 501'9 
2007 11 7.4210 
2007 12 7. 3682 
2008 1 7.240 5 
2008 此 7. 1644 
2008 3 7.072 2 
2008 入 6, 999 7 
2008 全 6, 9725 
2008 6 6€. 899 3 
2008 6,835 5 


a. 绘制 时 间 序 列 的 图 ， 是 否 存 在 线性 趋势 ? 
b. 利用 Minitab 或 Excel， 建 立 这 个 时 间 序 列 的 线 
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性 趋势 方程 。 
c. 利用 趋势 方程 预测 2008 年 8 月 的 汇率 。 
d. 利用 趋势 方程 预测 2008 年 12 月 的 汇率 ， 你 认 
为 合适 吗 ? 
26. Giovanni 食品 生产 公司 为 遍及 美国 东部 的 公立 中 小 
学 校生 产 和 销售 冷 并 比萨饼。 利用 一 个 非常 积极 





的 营销 战略 ， 在 过 去 10 年 间 ， 他 们 的 年 收入 已 经 a. 绘制 时 间 序 列 的 散 点 图 ， 评价 线性 趋势 的 合理 性 。 
增加 了 近 1000 万 美元 。 日 益 激 烈 的 竞争 使 得 他 们 b. 利用 Minitab 或 Excel， 建 立 用 于 预测 销售 量 的 
的 增长 速度 在 过 去 几 年 已 经 放 缓 。10 年 期 间 的 年 二 次 趋势 方程 。 

收入 (单位; 100 万 美元 ) 如 下 。 c, 利用 (b) 中 建立 的 趋势 方程 ， 预测 第 11 年 的 收入 。 


17.5 季节 性 和 趋势 


本 节 我 们 演示 如 何 对 有 季节 模式 的 时 间 序 列 建立 预测 。 在 存在 季节 性 的 情形 下 ， 我 们 需要 将 其 并 人 我 们 的 预 
测 模型 以 确保 预测 的 准确 性 。 我 们 首先 考虑 没有 趋势 的 季节 性 时 间 序 列 ， 然 后 讨论 如 何 模拟 有 趋势 的 季节 性 。 


17. 5. 1 没有 趋势 的 季节 性 


作为 一 个 例子 ， 考 虑 过 去 5 年 某 服装 商店 的 十 外 销售 量 。 表 17-I7 是 时 间 序 列 ， 图 17-16 是 相应 的 时 间 序 列 图 。 
时 间 序 列 图 没有 显示 销售 量 有 长 期 趋势 。 事 实 上 ， 如 果 不 仔细 观测 数据 ， 你 可 能 会 得 出 数据 具有 水 平 模式 的 结论 ， 
并 用 单一 指数 平滑 法 预测 销售 量 。 但 是 ， 仔 细 检 查 时 间 序 列 图 ， 发 现 数据 存在 模式 ， 即 第 一 季度 和 第 三 季度 有 中 等 
销售 量 ， 第 二 季度 的 销售 量 最 高 ， 而 第 四 季度 往往 是 最 低 销 售 量 的 季度 。 因 此 ， 我 们 得 出 存在 季度 季节 模式 的 结论 。 


表 17-17 ”雨伞 销 售 量 的 时 间 序 列 180 
年 份 ”季度 ”销售 量 | 年 份 “季度 ”销售 量 160 






1 125 3 113 140 

2 153 > 4 80 120 
; 3 106 1 109 刷 100 

4 |, 2 137 80 

1 118 3 125 60 

GE 1 40 
3 1%3 i Ta “0 

4 iw ， 2 区 语 i a 
1 138 3 FU y28 年 /季度 

2 4 


17-16 雨伞 销售 量 的 时 间 序 列 图 


在 第 15 章 我 们 介绍 了 在 多 元 回归 模型 中 ， 如 何 用 虚拟 变量 处 理 分 类 自 变 量 。 我 们 可 以 将 季节 作为 一 个 分 类 
变量 ,使 用 同样 的 方法 去 模拟 具有 季节 模式 的 时 间 序 列 。 回 忆 一 下 ， 当 分 类 变量 及 个 水 平时 ,需要 -1 个 虚拟 
变量 。 因 此 ， 如 果 有 4 个 季度 ， 我们 需要 3 个 虚拟 变量 。 例 如 ， 对 雨伞 销售 量 时 间 序 列 ， 季 度 是 一 个 有 4 个 水 平 
的 分 类 变量 : 第 一 季度 、 第 二 季度 、 第 三 季度 和 第 四 季度 。 因 此 ， 为 了 模拟 雨伞 时 间 序 列 的 季节 影响 ,我 们 需要 
4 -1=3 个 虚拟 变量 。 将 3 个 虚拟 变量 编码 如 下 : 

1， 沉 一 学 度 1， 第 二 季度 1， 第 三 季度 
Qtrl, = hs: 其 侈 Qtr2 = tv 其 他 Qa3 = 其 他 
用 YY 和 过 示 销售 量 的 估计 值 或 预测 值 ， 与 雨伞 季度 销售 量 关于 的 估计 的 回归 方程 的 一 般 形 式 如 下 : 
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Y = b, + 6b,Qtrl + b,Qtr2 + b,Qtr3 
表 17-18 是 雨伞 销售 量 时 间 序 列 以 及 虚拟 变量 的 编码 值 。 用 表 17-18 中 的 数据 以 及 Minitab 回归 程序 ， 我 们 得 
到 图 17-17 的 计算 机 输出 结果 。 得 到 的 估计 的 多 元 回归 方程 是 
Sales = 95.0 + 29. 0Qtrl + 57. 0Qtr2 + 26. 0Qtr3 

我 们 能 利用 这 个 方差 预测 下 一 年 的 季度 销售 量 。 

第 一 季度 :Sales = 95.0 +29.0 x14+57.0x0+26.0 x0 = 124 

第 二 季度 Sales = 95.0+29.0x0+57.0x1+26.0x0 = 152 

第 三 季度 ; Sales = 95.0 +29.0 x01+57.0x0+26.0x1 = 12] 

第 四 季度 ; Sales = 95.0 + 29.0 x0+57.0 x0 +26.0 x0 = 95 


表 17-18 具有 虚拟 变量 的 雨伞 销售 量 时 间 序 列 


年 季度 Qtr Qtr2 Qtr3 销售 量 
I 1 1 0 0 125 
2 0 1 0 153 
3 0 0 1 106 
4 0 0 0 88 
2 1 1 0 0 118 
2 0 1 0 161 
3 0 0 1 133 
4 0 0 0 102 
3 I 1 0 0 138 
2 0 1 0 144 
3 0 0 1 113 
4 0 0 0 80 
4 1 1 0 0 109 
2 0 I 0 137 
3 0 0 1 125 
4 0 0 0 109 
5 1 1 0 0 130 
2 0 I 0 165 
3 0 0 1 128 
4 0 0 0 96 


有 趣 的 是 ， 我 们 注意 到 可 以 通过 计算 每 个 季度 雨伞 销 售 量 的 简单 平均 数 就 可 以 得 到 下 一 年 季度 的 预测 值 ， 如 
下 表 所 示 


年 第 一 季度 第 二 季度 第 三 季度 第 四 季度 

1 125 153 106 88 

2 118 161 133 102 

3 138 144 113 80 

才 109 137 125 109 

5 130 165 128 2 
平均 数 124 152 121 95 


”尽管 如 此 ,图 17-17 中 的 回归 输出 结果 还 给 出 了 能 评 [poregresion oquation is | 
价 预测 准确 性 和 确定 结果 显著 性 的 附加 信息 。 同 时 ， 对 间 | Sales=95.0+29.0 Qtrl+57.0 Qt2+260 Qt3 





题 情况 更 复杂 的 类 型 ， 如 涉及 趋势 和 季节 影响 同时 存在 的 “| ps er 
时 间 序 列 ， 简 单 平均 方法 将 无 效 。 95.000 5.065 

29.000 7.162 
17. 5.2 季节 性 和 趋势 57.000 7.162 


26.000 7.162 


] 以 第 17.1 到 
现在 让 我 们 以 第 17,1 节 介绍 的 电视 机 销售 量 时 间 序 列 wy yoo 
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为 例 ， 将 回归 方法 扩展 到 季节 影响 和 线性 趋势 同时 存在 的 时 间 序 列 情形 ， 并 演示 如 何 进行 季度 预测 。 表 17-19 是 
电视 机 销售 量 时 间 序 列 的 数据 ， 图 17-18 的 时 间 序 列 图 显示 在 每 年 第 二 季度 销售 量 最 低 ， 第 三 和 第 四 季度 销售 量 
增长 。 因 此 ， 我 们 得 出 电视 机 销售 量 存 在 季节 模式 。 但 是 时 间 序 列 还 有 为 了 建立 季度 销售 量 的 精确 预测 需要 解释 
的 一 个 上 升 的 线性 趋势 。 这 是 很 容易 处 理 的 ， 只 要 将 季节 性 的 虚拟 变量 的 方法 与 我 们 在 第 17.3 节 讨 论 的 处 理 线 
性 趋势 的 时 间 序 列 回 归 方 法 结合 起 来 就 行 。 
模拟 电视 机 时 间 序 列 的 季度 季节 影响 和 线性 趋势 的 多 元 回归 方程 的 一 般 形 式 如 下 : 
Y = 6 +b,Qtrl + 6,Qtr2 + b,Qtr3 + bt 


式 中 ,了 为 1 期 销售 量 的 估计 值 或 预测 值 ，Qtrl = 1， 如 果 对 应 于 1 期 年 份 的 第 一 季度 ， 否 则 Qtrl =0; Qh2 = 
1 ， 如 采 对 应 于 + 期 年 份 的 第 二 季度 ， 否 则 Qtr2 =0; Qt3 =1， 如 果 对 应 于 :期 年 份 的 三 季度 ， 和 否则 Qt3 =0; 1 为 
时 期 。 


表 17-19 电视 机 销售 量 的 时 间 序 列 


销售 量 
(1 000 台 ) 


6:0 
5.6 
Ei] 


地: 


季度 电视 机 销售 量 (1 000 合 ) 


6.3 





5.9 A fr 
了 第 1 年 第 2 年 第 3 年 第 4 年 
年 /季度 


8.4 





图 17-18 电视 机 销售 量 的 时 间 序 列 图 


表 17-20 是 电视 机 销售 量 时 间 序 列 ， 包 含 虚 拟 变量 的 编码 值 和 时 期 1+。 用 表 17-20 中 的 数据 以 及 Minitab 回归 
程序 ， 我 们 得 到 图 17-19 的 计算 机 输出 结果 。 估 计 的 多 元 回归 方程 为 
Sales = 6.07 -1:36Qtrl -2.03Qtb2 - 0. 304Qtr3 + 0. 1461 (12) 


表 17-20 具有 虚拟 变量 和 时 期 的 电视 机 销售 量 时 间 序 列 


年 季度 Qtr Qt Qtr3 时 其 销售 量 (1 000 台 ) 
] 1 1 0 0 ] 4.8 
2 0 ] 0 六 4.1 
3 0 0 1 3 6.0 
4 0 0 0 4 6.5 
yy 1 1 0 0 克 S.8 
2 0 1 0 6 1p) 
3 0 0 1 7 0. 8 
4 0 人 0 8 7.4 
3 | 1 0 0 9 6,0 
2 0 ] 0 10 5.0 
3 0 0 ] 11 Fa9 
4 0 0 0 12 7.8 
4 1 l 0 0 13 6,3 
2 0 ] 0 14 5.9 
3 0 0 ] 相 8, 0 
0 0 0 16 8,4 


现在 我 们 用 式 (17-12) 来 预测 下 一 年 销售 量 的 季度 预测 值 。 下 一 年 是 电视 机 销售 量 时 间 序 列 的 第 5 年 ， 即 
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时 期 为 17，18, 19 和 20。 The regression equation is 
时 期 17 (第 5 年 第 一 季度 ) 的 预测 值 为 Sales (1 000s)=6.07-1.36 Qtrl-2.03 Qtr2-0.304 Qtr3+0.146 Period 
Sales =6.07 -1.36 x1 -2.03 x0 -0.304 x SB cdef 
0+0.146 x17 =7.19 0:1625 3735 
ee ; 0.157 5 -8.66 
时 期 18 (第 5 年 第 二 季度 ) 的 预测 值 为 | We 
Sales = 6.07 -1.36 x0—2.03x]1 -0.304x 0.153 7 一 1.98 
i th 二 6 0.012 11 12.02 
时 期 19 (第 5 年 第 三 季度 ) 的 预测 值 为 图 17-19 电视 机 销售 量 时 间 序 列 的 Minitab 回归 输出 结果 


Sales = 6.07 -1.36 x0 -2.03 x0 —0.304 x1+0.146 x 19 = 8.54 
时 期 20 (第 5 年 第 四 季度 ) 的 预测 值 为 
Sales = 6.07 -1.36 x0 -2.03 x0 —0.304 x0 +0.146 x20 = 8.99 
于 是 ， 考 虑 了 电视 机 销售 量 季 节 影 响 和 线性 趋势 ， 第 5 年 季度 销售 量 的 估计 值 为 7190, 6670，8540 和 8 990。 
估计 的 多 元 回归 方程 中 的 虚拟 变量 实际 上 给 出 了 4 个 (每 个 季度 各 1 个) 估计 的 多 元 回归 方程 ， 例 如 ， 如 果 
对 应 于 时 期 上 的 第 一 季度 ， 则 季度 销售 量 的 估计 值 为 
第 一 季度 :Sales = 6.07 -1.36 x1-2.03 x0 -0.304 x0+0.146t = 本 71 +0.146t 
类 似 地 ， 如 果 对 应 于 时 期 上 的 第 二 季度 、 第 三 季度 和 第 四 季度 ， 则 季度 销售 量 的 估计 值 为 
第 二 季度 .Sales = 6.07 -1.36 x0=2.03 xl1 -0.304 x0+0.146t = 4.04 +0. 146t 
第 三 季度 :Sales = 6.07 -1.36x0-203 x0—0.304 x1 +0.146t = 5.77 +0. 146t 
第 四 季度 :Sales = 6.07 -1.36 x0 -2.03 x0 - 0.304 x0+0.146: = 6.07 +0.1461 
每 个 季度 预测 方程 趋势 线 的 斜率 都 为 0.146， 表明 每 个 季度 销售 量 大 约 增长 146 台 。 唯 一 不 同 的 是 4 个 方程 
的 截 距 不 一 样 。 例 如 ， 第 一 季度 方程 的 截 距 是 4.71， 而 第 四 季度 方程 的 截 距 是 6.07。 因 此 , 4.71 -6.07 = - 
1. 36， 即 第 一 季度 的 销售 量 较 第 四 季度 的 销售 量 少 1360 台 。 换 句 话说 , 方程 (17-12) 中 虚拟 变量 Qtrl 的 估计 的 
回归 系数 - 1.36 是 第 一 季度 与 第 四 季度 销售 量 之 差 的 估计 值 。 类 似 地 ， 可 以 解释 虚拟 变量 Qti2 的 估计 的 回归 系数 
-2.03， 以 及 虚拟 变量 Qt3 的 估计 的 回归 系数 -0. 304。 


17. 5.3 基于 月 度数 据 的 模型 
在 前 面 电视 机 销售 量 的 例子 中 ， 我 们 演示 了 如 何 用 虚拟 变量 来 说 明 时 间 序 列 的 季度 季节 影响 。 由 于 分 类 变量 
季度 有 4 个 水 平 ， 需 要 3 个 虚拟 变量 ” 。 然 而 ， 许 多 商务 问题 用 月 度 而 不 是 季度 进行 预测 。 对 月 度数 据 ， 季 节 是 
一 个 有 12 个 水 平 的 分 类 变量 ， 因 此 需要 12 -1 =11 个 虚拟 变量 。 例 如，11 个 虚拟 变量 编码 如 下 : 
Monthl = 六 i ,Month2 = 网 he ,"… ,Monthll = 疯 ML 
0， 其 他 0， 其 他 0， 其 他 


除了 这 些 变化 ， 处 理 季 闻 性 的 多 元 回归 方法 是 一 样 的 。 





方法 a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 
六 28. 考虑 下 面 的 时 间 序 列 : b. 用 下 面 的 虚拟 变量 来 建立 一 个 解释 数据 中 季节 影 
EE 7 727 响 的 估计 的 趋势 方程 如果 为 第 一 季度 ，Qtrl = 
人 后 1， 和 否则 为 0; 如 果 为 第 二 季度，Qtr2 =1， 否 则 为 
i 0; 如 果 为 第 三 季度 ，Qtr3 =1， 否 则 为 0。 
4 78 81 72 c. 计算 下 一 年 的 季度 预测 值 。 


加 当 一 个 分 类 变量 《如 季节 ) 有 卡 个 水 平时 ， 需要 上 -1 个 虚拟 变量 。 


应 用 
30. 过 去 三 年 中 天 学 教材 的 季度 销售 量 (销售 的 册 数 ) 
数据 如 下 : 
季度 年 份 1 年 份 2 年 份 3 
1 1 690 1 800 1 850 
2 940 900 1 100 
3 2 625 2 900 2 930 
+1 2 500 2 360 2615 


绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 


. 用 下 面 虚 拟 变 量 来 建立 一 个 解释 数据 中 季节 影 


响 的 估计 的 趋势 方程 : 如 果 为 第 一 季度 ，Qtrl = 
1， 否 则 为 0; 如 果 为 第 二 季度 ，Qtr2 =1， 否 则 
为 0; 如 果 为 第 三 季度 ，Qt3 =1， 否 则 为 0。 


. 计算 下 一 年 的 季度 预测 值 。 
. 令 1=1 表示 第 1 年 第 一 季度 的 观测 值 ，; =2 表 


示 第 1 年 第 二 季度 的 观测 值 ，…，1t =12 表示 第 
3 年 第 四 季度 的 观测 值 。 用 (b) 定义 的 虚拟 变 
量 和 +:， 建 立 一 个 解释 时 间 序 列 中 季节 影响 和 线 
性 趋势 估计 的 回归 方程 。 基 于 数据 中 的 季节 影 
响 和 线性 趋势 ， 计 算 下 一 年 的 预测 值 。 


32，South Share 建筑 公司 沿 着 纽约 长 岛 南 岸 建立 永久 性 
码头 和 防波堤 。 尽 管 公司 开业 至 今 仅 有 5 年 ,但 收 
入 却 从 经 营 第 1 年 的 308 000 美元 增长 到 最 近 一 年 
的 1084 000 美元 。 下 面 是 季度 收入 数据 (单位 : 
1 000 美元 ) 。 


季度 年 份 1 年份 2 年份 3 “年份 4 年份 5 


1 20 37 75 92 176 
2 100 136 155 202 282 
3 175 245 326 384 二 SS 
二 48 82 181 


a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 
b. 用 下 面 虚 拟 变 量 建立 一 个 解释 数据 中 季节 影响 


的 估计 的 趋势 方程 : 如 果 为 第 一 季度 ，Qtrl =1， 
否则 为 0; 如 果 为 第 二 季度 ，Qtr2 =1， 否则 为 


17.6 时 间 序 列 分 解法 
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0; 如 果 为 第 三 季度 ，Qtr3 =1， 否 则 为 0。 基 于 
数据 中 的 季节 影响 ,计算 第 6 年 的 季度 销售 收 
入 的 预测 值 。 


. 令 Period =1 表示 第 1 年 第 一 季度 的 观测 值 ，Pe- 


riod =2 表示 第 1 年 第 二 季度 的 观测 值 ，…，Pe- 
riod = 20 表示 第 5 年 第 四 季度 的 观测 值 。 用 
(b) 中 定义 的 虚拟 变量 和 Period， 建 立 一 个 解 
释 时 间 序 列 中 季节 影响 和 线性 趋势 估计 的 回归 
方程 。 基 于 数据 中 的 季节 影响 和 线性 趋势 ， 计 
算 第 6 年 的 季度 销售 收入 的 预测 值 。 


34. 下 面 是 佛罗里达 州 南部 一 个 6 单元 公寓 3 年 的 月 草 
坪 维 护 费用 (单位 ;: 美元 iis 


月 份 年 份 1 年 份 2 年 份 3 
中 而 区 WE 二 有 症 了 
2 180 205 210 
3 205 215 230 
4 230 245 280 
5 240 265 290 
8 315 330 390 
7 360 400 420 
8 290 335 330 
9 240 260 290 


已 
ko 
S 
对 
S 


295 
280 
250 


"i 
i ~ 
B= 

Cy 
CA ED 
局 名 
SW 


a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 
b. 建立 一 个 用 于 解释 数据 中 季节 和 线性 趋势 影响 


的 估计 的 回归 方程 。 用 下 面 虚拟 变量 来 解释 数 
据 中 的 季节 影响 ， 如果 为 1 月 ，Jan =1， 否 则 为 
0; 如 果 为 2 月 ，Feb =1， 和 否则 为 0; 如 果 为 3 
月 ，Mar =1， 否 则 为 0 和 ”5 如 果 为 11 月 ， 
Nov =1， 和 否则 为 0。 注 意 ， 用 这 个 编码 方法 ， 当 
11 个 虚拟 变量 的 值 都 为 0 时， 对 应 于 12 月 费用 
的 观测 值 。 


c: 基于 趋势 和 季节 双重 影响 计算 下 一 年 的 月 度 预测 值 。 


本 节 我 们 关注 时 间 序 列 分 解 (time series decomposition) 的 问题 。 用 时 间 序 列 分 解法 可 以 将 一 个 时 间 序 列 分 隔 


或 分 解 出 季节 、 趋 势 和 不 规则 成 分 。 当 用 这 种 方法 进行 预测 时 ， 其 主要 应 用 是 获得 对 时 间 序 列 的 一 个 更 好 的 了 
解 。 许 多 商务 和 经 济 时 间 序 列 由 政府 机 构 (如 人 口 普查 局 和 劳工 统计 局 ) 保存 和 出 版 ， 这 些 机 构 用 时 间 序 列 分 解 
来 建立 消除 季节 影响 的 时 间 序 列 。 


了 解 时 间 序 列 的 真实 状况 常常 依赖 于 使 用 消除 季节 影响 的 数据 。 例 如 ， 我 们 或 许 有 兴趣 了 解 我 们 地 区 的 电力 


消耗 是 否 正 在 增长 。 假 设 我 们 了 解 到 ，9 月 份 的 电力 消费 量 比 8 月 份 减 少 了 3%。 使 用 这 些 资 料 时 必须 相当 谨慎 ， 
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因为 每 当 存 在 季节 影响 时 ， 如 果 数 据 没 有 消除 季节 影响 ， 这 样 的 比较 可 能 会 使 人 误解 。9 月 份 的 电力 消费 量 比 8 
月 份 减少 了 3% 的 事实 ， 可 能 仅仅 是 与 空调 使 用 减少 有 关 的 季节 影响 ， 面 并 不 是 因为 用 电量 的 长 期 减少 。 事 实 上 ， 
在 调整 季节 影响 之 后 ， 我 们 甚至 可 能 发 现 用 电量 是 增加 的 。 许 多 其 他 时 间 序 列 ， 如 失业 率 统计 、 房 屋 销售 量 和 有 零 
售 额 ， 都 受到 很 强 的 季节 影响 。 在 对 这 些 数据 作出 长 期 趋势 的 判断 之 前 ， 消 除 季节 影响 是 非常 重要 的 。 

时 间 序 列 分 解 方法 假设 时 间 序 列 上 期 的 实际 值 Y,， 是 趋势 成 分 、 季 节 成 分 和 不 规则 或 误差 成 分 这 三 个 成 分 的 
函数 。 如 何 将 这 三 个 成 分 组 合 起 来 产生 时 间 序 列 的 观测 值 ， 取 决 于 我 们 假定 是 用 加 法 模型 还 是 用 乘法 模型 来 更 好 
地 描述 它们 之 间 的 关系 。 

加 法 分 解 模型 (additive decomposition model) 的 形式 如 下 : 

Y, = Trend, + Seasonal, + Irregular, (17-13) 

式 中 ，Trend, 为 + 期 的 趋势 值 ，Seasonal, 为 上 期 的 季节 值 ; Imegular 为 上 期 的 不 规则 值 。 

在 加 法 模型 中 ， 三 个 成 分 的 值 简单 加 在 一 起 得 到 时 间 序 列 的 实际 值 Y,， 不 规则 或 误差 成 分 说 明 时 间 序 列 中 
不 能 被 趋势 和 季节 成 分 所 解释 的 变异 性 。 

加 法 模型 适合 于 季节 影响 不 依赖 于 时 间 序 列 水 平 的 情形 。 第 17.5 节 包 含 季节 和 趋势 影响 的 回归 模型 是 一 个 
加 法 模型 。 如 果 前 期 季节 影响 的 规模 与 后 期 季节 影响 的 规模 相同 ， 则 加 法 模型 是 合适 的 。 人 然而， 如果 季节 影响 随 
时 间 发 生 改 变 ， 由 于 长 期 线性 趋势 随 着 销售 量 的 增加 逐渐 变 大 ， 则 应 该 使 用 乘法 模型 * 。 许 多 商务 与 经 济 时 间 序 
列 都 遵循 这 种 模式 。 

乘法 分 解 模型 (multiplicative decomposition model) 的 形式 如 下 ; 

Y, = Trend, x Seasonal, x [rregula, (17-14 ) 

式 中 ，Trend, 为 ;期 的 趋势 值 ，Seasonal, 为 上 期 的 季节 值 y$ Irregular, 为 :期 的 不 规则 值 。 

在 这 个 模型 中 ， 趋 势 、 季 节 和 不 规则 成 分 相 乘 可 以 得 到 时 间 序 列 的 值 。 趋 势 用 被 预测 项 目的 单位 来 度量 ， 但 
是 ， 季 节 和 不 规则 成 分 则 按 相对 量 来 度量 ， 其 数值 大 于 1. 00 表明 它们 的 影响 在 趋势 之 上 ， 而 数值 小 于 1. 00 表明 
它们 的 影响 在 趋势 之 下 。 

由 于 这 种 方法 在 实践 中 常 第 使 用 ， 因 此 ， 介 绍 如何 建 立 趋势 和 季节 成 分 的 估计 而 对 时 间 序 列 分 解 的 讨论 ， 我 
们 将 只 限定 于 乘法 模型 。 我 们 以 第 17. 5 节 介 绍 的 电视 机 季度 销售 量 时间 序 列 为 例 进 行 说 明 ; 表 17-19 中 是 季度 销 
售 量 数 据 ， 图 17-18 是 相对 应 的 时 间 序 列 图 。 在 演示 如 何 用 乘法 模型 分 解 时 间 序 列 后 ， 我 们 将 说 明 如 何 将 季节 指 
数 和 趋势 成 分 重新 组 合 起 来 进行 预测 。 


17.6. 1 计算 季节 指数 


图 17-18 显示 每 年 的 第 二 季度 销售 量 最 小 ， 第 三 和 第 四 季度 的 销售 量 开 始 增加 。 因 此 ， 我 们 推断 电视 机 销售 
量 时 间 序 列 存在 季节 模式 。 确 定 每 个 季度 的 季节 影响 所 使 用 的 计算 程序 是 先 计算 移动 平均 数 ， 从 数据 中 剔除 组 合 
在 一 起 的 季节 和 不 规则 影响 ， 留 给 我 们 的 时 间 序 列 只 包含 趋势 和 移动 平均 没有 剔除 的 随机 波动 。 
由 于 我 们 所 使 用 的 数据 是 季度 时 间 序 列 ， 因 此 在 每 一 次 移动 平均 数 的 计算 中 ， 我 们 使 用 4 项 数据 。 前 4 
个 季度 的 电视 机 销售 量 的 移动 平均 数 是 


第 一 个 移动 平均 数 = 9 


注意 ， 前 4 个 季度 的 移动 平均 数 正好 是 时 间 序 列 第 1 年 的 平均 季度 销售 量 。 继 续 移 动 平 均 数 的 计算 ， 加 上 第 
2 年 第 一 季度 的 数值 5. 8， 去 掉 第 1 年 第 一 季度 的 数值 4.8， 得 到 第 二 个 移动 平均 数 为 
第 二 个 移动 平均 数 = + 4 5.60 


同 理 ， 第 三 个 移动 平均 数 为 (6.0 +6.5+5.8+5.2)/4=5.875。 


昌 不 规则 成 分 与 我 们 在 第 14 章 中 讨论 的 简单 线性 回归 模型 中 的 误差 项 es 相对 应 。 
电 、 估 口 普 查 局 使 用 了 一 个 与 该 局 消除 季节 影响 后 的 时 间 序 列 相 结 合 的 乘法 模型 。 
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在 我 们 对 整个 时 间 序 列 进 行 移动 平均 数 计算 之 前 ， 我 们 再 回 到 第 一 个 移动 平均 数 的 计算 ， 得 到 5. 35。5. 35 这 
个 数字 正好 是 第 1 年 的 平均 季度 销售 量 。 当 我 们 回顾 5.35 的 计算 结果 时 ,发现 它 对 应 于 移动 平均 数 的 所 有 季度 的 
“中 间 ”。 但 是 ， 请 注意 ， 因 为 是 4 个 季度 的 移动 平均 数 ， 不 存在 中 间 季 度 ， 因 此 ，5. 35 应 该 对 应 于 2.5 季度 ， 即 
第 二 季度 的 后 半 部 分 和 第 三 季度 的 前 半 部 分 。 同 样 ， 如 果 我 们 考察 下 一 个 移动 平均 数 为 5.60，、 它 对 应 于 的 中 间 季 
度 为 3.5， 即 第 三 季度 的 后 半 部 分 和 第 四 季度 的 前 半 部 分 。 

我 们 计算 出 的 两 个 移动 平均 数 并 不 能 直接 对 应 于 时 间 序 列 的 原始 季度 ， 因此， 我 们 可 以 通过 计算 两 个 移动 平 
均 数 的 平均 数 来 解决 这 个 难题 。 既 然 第 一 个 移动 平均 数 的 中 心 是 2.5 季度 (季度 的 一 半 或 前 半 个 季度 ) ， 第 二 个 
移动 平均 数 的 中 心 是 3.5 季度 (季度 的 一 半 或 后 半 个 季度 )， 则 两 个 移动 平均 数 的 平均 数 的 中 心 为 3 季度 ， 这 应 
该 是 它 精确 的 位 置 。 这 个 移动 平均 数 被 称 为 中 心 化 移动 平均 数 。 因 此 ， 第 三 季度 的 中 心 化 移动 平均 数 为 (5. 35 + 
5.60)/2 =5.475， 同 样 ， 第 四 季度 的 中 心 化 移动 平均 数 为 (5, 60 +5.875)/2=5.738。 表 17-21 是 电视 机 销售 量 数 
据 的 移动 平均 数 和 中 心 化 移动 平均 数 的 全 面 汇总 。 


表 17-21 电视 机 销售 量 时 间 序 列 的 中 心 化 移动 平均 数 的 计算 


年 季度 “销售 量 (1 000 件 ) 4 个 季度 的 移动 平均 数 中 心 化 的 移动 平均 数 
I 4.8 
2 4.1 
5. 350 
1 3 6.0 5. 475 
5. 600 
4 6.5 5. 738 
5. 875 
1 5.8 5. 975 
6. 075 
2 刘 6. 188 
2 6. 300 
3 6.8 6. 325 
6. 350 
4 7.44 6. 400 
6.450 
1 6.0 6. 538 
6..625 
2 5.6 6. 675 
3 6. 725 
3 7 6. 763 
6. 800 
4 7.8 6. 838 
6. 875 
1 6.3 6. 938 
7: 000 
2 5.9 7. 075 
4 7, 150 
3 8.0 
+ 8.4 


表 17-21 的 中 心 化 的 移动 平均 数 能 告诉 我 们 时 间 序 列 的 什么 问题 呢 ? 图 17-20 是 时 间 序 列 实际 值 和 中 心 化 的 
移动 平均 数 的 时 间 序 列 图 。 要 特别 注意 ， 中 心 化 的 移动 平均 数 是 如 何 “ 平 滑 ”时 间 序 列 的 季节 和 不 规则 波动 影响 
的 。 中 心 化 的 移动 平均 数 描绘 数据 中 的 趋势 和 没有 被 平滑 数据 的 移动 平均 剔除 掉 的 随机 波动 。 

前 面 我 们 介绍 的 乘法 分 解 模型 为 

了 = Trend, x Seasonal, x rregalar， 


方程 两 边 同时 除 以 趋势 成 分 7.， 我 们 可 以 识别 出 时 间 序 列 中 的 季节 - 不 规则 “的 组 合影 响 为 


加 “季节 二 不 规 则 值 常常 被 称 为 时 间 序 列 的 被 剔除 趋势 的 数值 。 
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y, _ Trend, x Seasonal, x Irregular, 


Trend, Trend, 


= Seasonal, x Irregular, 


例如 ,第 1 年 第 三 季度 的 趋势 值 为 5.475( 中 心 化 移动 平均 数 )， 因 此 ，6.0/5.475 =1.096 是 季节 - 不 规则 的 


组 合 值 。 表 17-22 汇总 了 整个 时 间 序 列 的 季节 - 不 规则 值 。 


表 17-22 ”电视 机 销售 量 时间 序 列 的 季节 -不 规则 值 


年 


恒 


| 王 
Su 
五 


销售 量 (1000 台 ) 
4.8 


下 面 考虑 第 三 季度 的 季节 - 不 规则 值 : 1.096，1.075 和 
1. 109。 季 节 -不 规则 值 大 于 1. 00 表明 影响 在 趋势 估计 之 上 ， 
而 数值 小 于 1. 00 表明 影响 在 趋势 估计 之 下 。 因 此 ， 在 第 三 季 
度 ，3 个 季节 = 不 规则 值 表现 出 高 于 平均 水 平 的 影响 。 因 为 季 
节 -不 规则 值 每 年 的 波动 主要 是 由 于 随机 误差 引起 的 ， 所 以 ， 
我 们 可 以 取 其 平均 数 以 消除 不 规则 的 影响 ， 从 而 得 到 第 三 季度 
季节 影响 的 估计 值 。 

1.096 + 1.075 +1.109 _ 


第 三 季度 的 季节 影响 值 = 


我 们 将 下 09 称 为 第 三 季度 的 季节 指数 。 在 表 17-23 中 , 汇 
总 了 关于 电视 机 销售 量 时间 序 列 的 季节 指数 的 计算 结果 。4 个 
季度 的 季节 指数 分 别 为 : 0.93, 0.84, 1.09 和 1.14。 

表 17-23 中 季节 指数 的 解释 提供 了 关于 电视 机 销售 量 季节 成 
分 的 一 些 观测 结果 。 最 佳 销售 季度 是 第 四 季度 ， 其 销售 水 平 高 出 


1.09 


中 心 化 移动 平均 数 季节 -不 规则 值 
5. 475 1.096 
5. 738 1, 133 
5. 975 0. 971 
6. 188 0. 840 
6, 325 1. 075 
6. 400 1. 156 
6. 538 0. 918 
6. 675 0. 839 
6. 763 1. 109 
6. 838 1. 141 
6. 938 0. 908 
7. 075 0. 834 
9.0 
二 
70 
= 6.0 
啊 5.0 
最 40 和 
名 人 中 心 化 移动 平均 时 间 序 列 





= 有 3 
第 1 年 第 2 年 第 3 年 第 4 年 
年 /季度 
图 17-20 ”电视 机 季度 销售 量 时 间 序 列 和 
中 心 化 移动 平均 数 


趋势 估计 14% ， 最 差 或 最 少 的 销售 季度 是 第 二 季度 ， 其 季节 指数 为 0.84， 表 明 其 销售 水 平 低 于 趋势 估计 16% 。 季 节 
成 分 很 明显 地 对 应 着 人 们 观看 电视 兴趣 的 直观 期 望 ， 由 于 冬季 即将 到 来 人 们 减少 了 户外 活动 ， 因 此 电视 购买 模式 趋 
向 于 峰值 。 第 二 季度 的 低 销 售 量 反映 由 于 春季 和 初夏 的 户外 活动 ， 减 少 了 潜在 消费 者 观看 电视 的 兴趣 。 

表 17-23 电视 机 销售 量 时 间 序 列 的 季节 指数 的 计算 


季度 季节 -- 不 规则 成 分 的 数值 季节 指数 
1 0. 971 0. 918 0. 908 0.93 
2 0. 840 0. 839 0. 934 0. 84 
3 1. 096 1.075 1. 109 1. 09 
4 1. 113 1. 156 i 1,14 
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在 取得 季节 指数 时 ， 对 季节 指数 做 最 后 的 调整 有 时 是 必要 的 。 乘 法 模型 要 求 平均 季节 指数 等 于 1.00， 因 此 ， 
表 17-23 中 的 4 个 季节 指数 之 和 必须 等 于 4. 00。 换 句 话 说， 季节 影响 在 一 年 内 必须 是 持平 的 。 在 我 们 这 个 例子 中 
季节 指数 的 平均 数 等 于 1. 00， 因 此 ， 它 不 需要 调整 。 对 于 其 他 情形 ， 有 时 或 许 需 要 进行 微调 。 对 季节 指数 进行 调 
整 是 用 每 个 季节 指数 乘 以 季度 总 和 再 除 以 未 调整 的 季节 指数 之 和 。 例 如 ， 对 于 季度 数据 ， 每 个 季节 指数 乘 以 4 再 
除 以 未 调整 季节 指数 之 和 。 为 了 获得 合理 的 季节 指数 ， 有 些 练习 需要 进行 这 种 调整 。 


17. 6. 2 ”消除 季节 影响 的 时 间 序 列 
剔除 了 季节 影响 的 时 间 序 列 被 称 为 消除 季节 影响 的 时 间 序 列 (deseasonalized time series) ， 用 季节 指数 昌 除 时 
间 序 列 中 的 季节 影响 的 过 程 称 为 消除 时 间 序 列 的 季节 影响 。” 利 用 乘法 分 解 模型 ， 我 们 用 每 一 个 观测 值 除 以 相应 的 
季节 指数 来 消除 时 间 序列 的 季节 影响 。 乘 法 分 解 模型 为 
7 = Trend ， x Seasonal x Irregular， 
因此 ， 当 时 间 序 列 的 每 个 观察 值 7X 除 以 相应 的 季节 指数 时 ， 剩 下 的 数据 中 只 包含 趋势 和 随机 波动 〈 不 规则 成 
分 ) 。 在 表 17-24 中 汇总 了 消除 季节 影响 后 的 电视 机 销售 量 的 时 间 序 列 ， 图 17-21 是 消除 季节 影响 的 时 间 序 列 的 图 形 。 


表 17-24 ”消除 季节 影响 的 电视 机 销售 量 的 时 间 序 列 值 


年 季度 时 期 销售 量 (1 000 台 ) 季节 指数 消除 季节 影响 的 销售 量 
1 1 1 4.8 0. 93 5. 16 
2 2 4.1 0. 84 4. 88 
3 3 6.0 1. 09 5, 50 
4 4 6.5 1. 14 5.70 
2 1 5 5. 8 0,93 6..24 
2 6 5.2 0. 84 6. 19 
3 pl 6.8 1. 09 6. 24 
4 8 7.4 1. 14 6. 49 
3 1 9 6.0 0, 93 6. 45 
2 10 5.6 0. 84 6,67 
3 11 7.5 1. 09 6. 88 
4 12 7.8 1. 14 6. 84 
4 1 13 6.3 0.93 6.77 
2 14 5.9 0. 84 7.02 
3 15 8.0 1. 09 7. 34 
4 16 8.4 1. 14 T7537 
8.0 
一 机 
人 
S 60 
咖 5.0 
3.0 
六 
区 2.0 
各 1.0 
00 


or i 
第 1 年 第 2 年 


图 17-21 消除 季节 影响 的 电视 机 销售 量 时 间 序 列 


”3 


日 ”调整 季节 变异 后 的 经 济 时 间 序 列 常常 刊登 在 一 些 出 版 物 上 ， 如 《当代 商业 纵览 》《 华 尔 街 日 报 》 和 《商业 周刊 》。 
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17. 6.3 利用 消除 季节 影响 的 时 间 序 列 确定 趋势 


出 现在 图 17-21 中 的 消除 季节 影响 的 电视 机 销售 量 时 间 序 列 的 图 形 ， 显 示 有 一 个 向 上 的 线性 趋势 。 为 了 确定 
这 个 趋势 ， 我 们 使 用 第 17.4 节 介 绍 的 同样 方法 ， 用 一 个 线性 趋势 方程 来 拟 合 消除 季节 影响 的 时 间 序 列 。 唯 一 不 同 
的 是 ， 我 们 使 用 消除 季节 影响 的 数据 而 不 是 原始 数据 。 

我 们 记得 ， 对 线性 趋势 ， 估 计 的 回归 方程 可 以 表示 为 

(有 

式 中 ,Y 是 1 期 线性 趋势 的 预测 值 ，b, 是 线性 趋势 线 的 截 距 ; 是 趋势 线 的 斜率 ; ! 是 时 期 。 

在 第 17. 4 节 我 们 给 出 了 计算 名 和 5b, 的 公式 。 为 了 用 一 条 线性 趋势 线 拟 合 表 17-24 的 消除 季节 影响 的 数据 ， 
在 计算 b 和 及 时 ， 唯 一 的 变化 是 我 们 用 消除 季节 影响 的 时 间 序 列 值 代替 观测 值 了 。 

17-22 是 利用 Minitab 回归 分 析 程序 来 估计 消除 季节 影响 的 电视 机 销售 量 时 间 序 列 趋 势 线 的 计算 机 输出 结 
果 。 估 计 的 线性 趋势 方程 为 

消除 季节 影响 的 销售 量 = 5. 10 + 0. 148t 

斜率 0.148 表明， 在 过 去 的 16 个 季度 中 ， 消 除 季节 影响 之 后 ， 公 司 每 个 季度 的 销售 量 平均 增长 148 台 。 如 果 
我 们 假设 ， 过 去 16 个 季度 销售 的 趋势 依然 适用 于 未 来 ， 则 这 个 方程 可 用 来 建立 未 来 季度 的 趋势 推测 。 例 如 ， 将 
上 =17 代 人 方程 ， 可 以 得 到 下 一 个 季度 消除 季节 影响 的 趋势 推测 值 T，, 。 

7 = 5.10 +0. 148t = 0.51 +0.148 x17 = 7.616 

因此 ， 利 用 消除 季节 影响 的 数据 ， 下 一 个 季度 (时 期 17) 的 线性 趋势 预测 值 7 616 台电 视 机 。 类 似 地 ， 下 3 

个 季度 (时 期 18， 19 和 20) 的 消除 季节 影响 的 趋势 预测 值 分 别 为 7764，7 912 和 8 060 人 台电 视 机 。 


The regression equation is 
Deseasonalized Sales=$.10+0.148 Period 


Predictor Coef SE Coef T 
Constant $5.105 0 0.113 3 45.07 
Period 0.147 60 0.0117] 12.60 


S=0.215 985 R-Sq=91.9% R-Sq (adi) =91.3% 


Analysis of Variance 


Source DF 
Regression ] 
Residual Error 14 
.| Total 15 





图 17-22 ”消除 季节 影 啊 的 电视 机 销售 量 时 间 序 列 的 Minitab 回归 输出 结果 


17. 6.4 季节 调整 


当 趋 势 和 季节 成 分 同时 存在 时 ， 建 立 预测 的 最 后 一 步 就 是 用 季节 指数 调整 消除 季节 影响 的 趋势 推测 值 。 再 回 
到 电视 机 销售 量 的 例子 ， 我 们 现在 已 经 得 到 未 来 4 个 季度 的 消除 季节 影响 的 趋势 推测 值 ， 现 在 我 们 需要 用 季节 影 
响 来 调整 预测 值 。 第 5 年 第 一 季度 (1=17) 的 季节 指数 为 0.93， 因 此 ,我 们 用 消除 季节 影响 的 趋势 预测 值 
(7 =7616) 乘 以 季节 指数 0. 93 ， 得 到 该 季度 的 预测 值 。 于 是 ， 即 该 季度 的 预测 值 为 7616 x0.93 =7083 ( 台 )。 
表 17-25 给 出 了 17 ~ 20 季 度 的 预测 值 。 销 售 最 高 的 第 四 季度 的 预测 值 为 9188 人 台 ; 销售 最 低 的 第 二 季度 的 预测 值 为 
6 522 人 台 。 
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表 17-25 电视 机 销售 量 时 间 序 列 的 季度 预测 值 
季度 消除 季节 影响 的 趋势 预测 值 季节 指数 季度 预测 值 
7616 0.93 7616 x0.93 =7083 
7764 0.84 7764 x0. 84 =6 522 
7 912 1.09 7912 x1.09 =8 624 
8 060 1. 14 8 060 x1.14 =9 188 


= 


17. 6.5 根据 月 度数 据 的 模型 


在 前 面 电视 机 销售 量 的 例子 中 ,我们 利用 季度 数据 来 说 明 季节 指数 的 计算 。 然 而 ， 许 多 商务 问题 使 用 的 是 月 
度 而 不 是 季度 的 预测 。 在 这 种 情况 下 ， 本 节 介 绍 的 方法 只 要 做 轻微 的 修改 就 可 以 使 用 。 首 先 ， 是 用 12 个 月 的 移 
动 平均 数 代替 4 个 季度 的 移动 平均 数 ; 其 次 ,是 计算 12 个 月 的 季节 指数 ， 而 不 是 4 个 季度 的 季节 指数 。 除 此 之 
外 ， 计 算 和 预测 方法 都 是 一 样 的 。 


17. 6.6 循环 成 分 


在 数学 上 ， 式 (17-14) 的 乘法 模型 可 以 扩展 到 包括 循环 成 分 。 
Y = Trend, x Cyclical, x Seasonal, x Irregular, (17-15) 
循环 成 分 同 季节 成 分 一 样 ， 可 以 表示 为 趋势 的 百分比 。 正 如 第 17. 1 节 所 述 ， 循 环 成 分 归 因 于 时 间 序 列 的 多 年 
循环 。 它 与 季节 成 分 类 似 ， 只 是 所 经 历 的 时 间 周 期 更 长 一 些 。 但 是 ， 由 于 所 涉及 的 时 间 的 长 度 ， 要 获得 足够 的 相 
关 数 据 来 估计 循环 成 分 常常 是 困难 的 。 男 一 个 困难 是 循环 的 周期 长 短 不 一 。 由 于 从 长 期 趋势 影响 中 确定 和 (或) 
分 离 循环 影响 如 此 困难 ， 实 践 中 ， 常 常 将 这 些 影响 合并 ， 称 之 为 趋势 - 循环 组 合成 分 。 我 们 不 再 对 循环 成 分 做 进 
一 步 的 讨论 ， 在 预测 方法 的 专业 教材 中 有 这 方面 的 内 容 。 
注释 和 评论 
1. 有 许多 不 同 的 计算 季节 指数 的 方法 。 在 本 节 我 们 通过 平均 对 应 的 季节 -不 规则 值 计算 每 一 个 季节 指数 。 另 
一 种 被 Minitab 所 使 用 的 方法 是 用 季节 一 不 规则 值 的 中 位 数 作 为 季节 指数 。 
2. 在 消除 时 间 序 列 的 季节 影响 之 前 ， 常 常 需要 做 日 历 调 整 。 例 如 ， 如 果 时 间 序 列 是 月 销售 量 教 值 ， 则 2 月 份 
的 销售 量 数值 可 能 比 其 他 月 份 的 数值 小 ， 这 仅仅 是 因为 2 月 份 的 天 数 少 。 为 了 避免 这 个 因素 ， 我 们 首先 用 
每 个 月 的 销售 数值 除 以 该 月 的 和 天数 ， 得 到 日 销售 量 的 平均 数 。 因 为 每 个 月 平均 大 约 有 365/12 = 30.416 7 
(天 )， 然 后 我 们 用 日 销售 量 的 平均 数 乘 以 30.4167， 得 到 调整 的 月 销售 量 数值 。 对 于 本 章 的 例题 和 练习 ， 
你 可 以 认为 已 经 进行 了 必要 的 日 历 调整 。 





方法 应 用 
36. 参考 第 35 题 。 38. 下 面 是 佛罗里达 州 南 部 一 个 6 单元 的 公寓 在 3 个 年 
a. 用 第 35 题 (c) 中 的 调整 季节 指数 来 消除 时 间 份 的 月 草坪 维护 费用 (单位 美元 )。 
序列 的 季节 影响 。 a 
b， 用 Minitab 或 Excel， 计 算 消 除 季节 影响 数据 的 1 170 180 195 
线性 趋势 回归 方程 2 180 205 210 
> 3 205 215 230 
c, 计算 第 4 年 的 消除 季节 影响 的 季度 趋势 预测 值 。 4 230 245 280 
d. 用 季节 指数 调整 (c) 中 的 消除 季节 影响 的 季度 5 240 265 290 
6 315 330 390 
7 


趋势 预测 值 。 
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( 续 ) 

月 份 年 份 1 年 份 2 年 份 3 
8 290 335 330 
9 240 260 290 
10 240 270 295 
11 230 255 280 
12 195 220 250 


名 


[= 加 


. 确定 佛罗里达 州 南部 公寓 3 年 的 月 草坪 维护 费 
用 的 每 月 的 季节 指数 。 用 12 个 月 的 移动 平均 数 
计算 。 

. 消除 时 间 序 列 的 季节 影响 。 

d. 计 工 消除 季节 影响 数据 的 线性 趋势 方程 。 
e, 计算 消除 季节 影响 的 趋势 预测 值 ， 然 后 用 季节 
指数 调整 趋势 预测 值 ， 从 而 得 到 第 4 年 每 月 费 
用 的 预测 值 。 
40. 电能 的 消耗 量 用 千瓦 时 (kWh) 来 度量 。 某 地 公 
用 事业 公司 主动 提供 一 个 需要 商业 客户 参与 的 电 
力 供应 中 断 程序 光 如 果 客 户 参 与 该 程序 ， 则 电费 将 


C3 
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本 章 我 们 介绍 了 时 间 序 列 分 析 和 预测 的 基本 方法 。 
首先 ， 我 们 说 明了 常常 通过 绘制 时 间 序 列 图 来 确定 时 
间 序列 的 基本 模式 。 数 据 模 式 可 分 为 几 种 类 型 ， 包 括 
水 平 模式 、 趋 势 模 式 和 季节 模式 。 我 们 以 时 间 序列 所 
呈现 的 这 些 模式 为 依据 ， 讨 论 了 预测 方法 。 

对 二 个 具有 水 平 模式 的 时 间 序 列 ， 我 们 说 明了 如 
何 用 移动 平均 法 和 指数 平滑 法 进行 预测 。 移 动 平均 法 
计算 过 去 数据 值 的 平均 数 ， 然 后 用 这 个 平均 数 作为 下 
一 个 时 期 的 预测 值 。 在 指数 平滑 法 中 ,我 们 用 时 间 序 
移动 到 不 同 的 水 平 ， 并 且 继 续 保 持 水 平 模式 时 ， 这 些 
方法 也 同样 适用 。 

在 确定 使 用 什么 预测 方法 时 的 重要 因素 涉及 的 是 方 
法 的 准确 性 。 我 们 讨论 了 三 种 预测 精度 的 测度 : 平均 绝 
对 误差 《MAE)、 淘 方 误差 (MSE) 和 平均 绝对 百分数 
误差 (MAPE) 。 每 二 种 测度 的 目的 是 为 了 确定 ， 某 种 特 
定 的 预测 方法 在 多 大 程度 上 能 再 现 已 取得 的 时 间 序列 数 
据 。 通 过 选择 对 已 知 数据 有 最 佳 精度 的 方法 ， 我 们 期 党 
增加 获得 未 来 时 期 更 好 预测 值 的 可 能 性 。 

对 于 只 有 长 期 线性 趋势 的 时 间 序 列 ， 我 们 说 明了 





. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 


天 到 平 拘 数 来 计算 预测 值 。 当 水 平 模式 


会 得 到 优惠 ， 狂 是 如 果 公 司 要 求 他 们 减少 用 电量 
时 他 们 必须 同意 这 一 要 求 。Timko Produces 公司 在 
星期 四 中 午 12 点 减少 用 电量 。 为 了 确定 节省 的 用 
电量 ， 公 用 事业 公司 必须 估计 Timko 公司 在 不 停电 
时 的 用 电量 。 停电 时 间 从 中 午 12 点 到 晚上 8 点 。 
停电 前 72 小 时 的 Timko 公司 用 电 数 据 是 可 以 得 
到 的 。 


时 间 段 星期 一 星期 二 星期 三 星期 四 
上 和 04 所 -一 19 281 31 209 “27 330 
上 午 4~8 点 一 33 195 37.014 - 32715 
上 年 8=12 点 = 99 516 119 968 “152 465 
下 午 12~4 点 124299 123.666 156 033 
下 午 4~8 点 113545 111717 128 889 
下 午 8~12 点 。 41300 48 112 73.923 


a 在 24 小 时 期 闻 内 是 否 存 在 季节 影响 ? 

b, 计算 4 小 时 期 间 的 季节 指数 。 

c. 利用 季节 指数 调整 的 趋势 来 估计 Timko 公司 在 
停电 期 间 的 正常 用 电量 。 





机 


如 何 用 简单 时 间 序 列 回 归来 进行 趋势 推测 8 我们 还 讨 
论 了 一 种 能 用 来 预测 具有 线性 趋势 时 间 序 列 的 扩展 的 
单一 指数 平滑 法 ， 该 方法 被 称 为 Holt 线性 指数 平滑 法 。 
对 于 具有 曲线 或 非 线性 趋势 的 时 间 序 列 ， 我 们 介绍 了 
多 元 回归 能 用 来 拟 合 数据 的 二 次 趋势 方程 或 指数 趋势 
方程 。 

对 于 具有 季节 模式 的 时 间 序 列 ， 我 们 介绍 了 在 多 
元 回归 机 型 中 如 何 使 用 虚拟 变量 ， 以 及 多 元 回归 模型 
如 何 用 于 建立 有 季节 影响 的 估计 的 回归 方程 。 然 后 ， 
通过 介绍 如 何 将 处 理 季 节 性 的 虚拟 变量 方法 和 处 理 线 
性 趋势 的 时 间 序 列 回归 方法 组 合 起 来 ， 我 们 将 回归 方 
法 扩展 到 同时 拥有 季节 和 线性 趋势 影响 的 时 间 序 列 。 

在 本 章 的 最 后 一 节 ， 我 们 介绍 了 恕 何 用 时 间 序 列 
分 解 将 二 个 时 间 序 列 分 隔 或 分 解 为 季节 和 趋势 成 分 ， 
然后 得 到 消除 季节 影响 的 时 间 序 列 。 我 们 介绍 了 如 何 
计算 一 个 乘法 模型 的 季节 指数 ， 如 何 用 季节 指数 得 到 
消除 季节 影响 的 时 间 序 列 ， 以 及 如 何 对 消除 季节 影响 
的 数据 使 用 回归 方程 来 估计 趋势 成 分 。 当 趋势 和 季节 
成 分 同时 存在 时 ， 建 立 预测 的 最 后 一 步 是 用 季节 指数 
调整 趋势 推测 值 。 






关键 术 主 
ZER 过 小 | 它 


time series ”时间 序列 


一 个 变量 在 连续 时 点 或 连续 
时 期 上 测量 的 观测 值 的 序列 。 


time series plot “时 间 序 列 图 ”时 间 序 列 图 是 时 间 和 时 
间 阁 列 变量 之 间 关 系 图 形 的 表述 。 时 间 位 于 横 轴 ， 
时 间 序 列 值 位 于 纵 轴 。 

horizontal pattern 水平 模式 “ 当 数 据 围 绕 着 一 个 不 变 
的 均值 上 下 波动 时 ， 则 存在 水 平 模式 。 

stationary time series 平稳 了 时间 序列 ”统计 性 质 与 时 
间 独 立 的 时 间 序 列 。 平 稳 时 间 序 列 过 程 产生 的 数据 
有 一 个 不 变 的 均值 ， 而 且 时 间 序 列 的 变异 性 随 着 时 
闻 的 推移 保持 不 变 。 

trend pattern 趋势 模式 ”如 果 时 间 序 列 图 在 一 段 较 长 
的 时 间 内 呈现 出 逐步 改变 或 移动 到 相对 较 高 的 或 较 
低 的 值 ， 则 存在 趋势 模式 。 

seasonal pattern ”季节 模式 如果 时 间 序 列 图 在 连续 
的 时 期 内 而 呈现 重复 模式 ， 则 存在 季节 模式 。 和 连续 的 
时 期 常常 指 一 年 的 周期 这 也 是 季节 模式 名 称 的 
由 来 。 


cyclical pattern ”循环 模式 ”如 果 时 间 序 列 图 显示 出 桂 
续 时 间 超过 一 年 的 在 趋势 线 的 上 下 交 兰 的 点 序列 ， 
则 存在 循环 模式 。 

forecast error” 预测 误差 ”时 间 上 序列 实际 值 与 预测 值 
之 间 的 差 。 

mean absolute error (MAE) 平均 绝对 误差 ”预测 
误差 绝对 值 的 平均 数 。 

mean squared error (MSE) 均 方 误差 预测 误差 
平方 和 的 平均 数 。 


mean absolute percentage error ( MAPE ) 平均 绝 
对 百分数 误差 ”百分数 预测 误差 绝对 值 的 平均 数 。 


一 站 sd 
3 习 wz ZN \ 


KK 阶 移动 平均 预测 
= 最 近 上 湖区 所 全 之 和 
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指数 平滑 预测 
F,, = oz + (1 -oy)h, 
线性 趋势 方程 


(17-2) 
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数据 值 的 平均 数 作 为 下 一 个 时 大 预测 值 的 一 种 预测 
方法 

weighted moving average ”加 权 移 动 平均 法 ”对 时 间 
序列 最 近 上 丰 期 数据 值 选 择 不 同 的 权重 ， 然 后 计算 加 
权 平 均 数 的 一 种 预测 方法 。 权 重 之 和 人 必须 等 于 1。 

exponential smoothing ”指数 平滑 法 ”用 过 去 时 间 序 列 
值 的 加 权 平 均 数 作为 预测 值 的 一 种 预测 方法 ; 它 是 
加 权 移 动 平均 方法 的 特殊 情形 ， 我 们 只 选择 一 个 权 
重 一 一 最 近 时 期 观测 值 的 权重 。 

smoothing constant 平滑 常数 ”指数 平滑 模型 中 的 参 
数 ， 在 计算 预测 值 时 ， 它 是 最 近 时 间 序 列 数值 的 指 
定 权 重 。 

linear exponential smoothing ”线性 指数 平滑 单一 指 
数 平滑 法 的 扩展 ， 它 用 两 个 平滑 常数 能 对 具有 线性 
趋势 的 时 间 序 列 进 行 预测 。 

time series decomposition 时 间 序 列 分 解 ”用 于 将 一 
个 时 间 序 列 分 陋 或 分 解 出 季节 和 趋势 成 分 的 时 间 序 
列 方法 。 

additive decomposition model 加 法 分 解 模型 在 加 
法 模型 中 ， 时 间 序 列 上 期 的 实际 值 是 趋势 成 分 值 、 
季 市 成 分 值 和 不 规则 成 分 值 之 和 。 

multiplicative decomposition model ”乘法 分 解 模型 
在 乘法 模型 中 ， 时 间 序 列 1 期 的 实际 值 是 趋势 成 分 
值 、 季 节 成 分 值 和 不 规则 成 分 值 的 乘积 。 

deseasonalized time series 消除 季节 影响 的 时 间 序 列 
是 指 剔 除了 季节 影响 的 时 间 序 列 ， 其 方法 是 将 每 
一 个 原始 时 间 序 列 观 测 值 除 以 相应 的 季节 指数 。 


T= bi 


(17-4) 
式 中 
,ET 
es (17-5) 
Zl: 和 
和 (17-6) 
Holt 线性 指数 平滑 


GE =a + 一 oa (CE +ba) C17-7) 
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b=.B(L, = ) +(L-B)() 而 各 加 -局 
及， = b+bk (17-9) 

二 次 趋势 方程 
Tb + bt + be (17-10) 

指数 趋势 方程 





补充 练习 - 
42. 下 表 是 2010 ~ 2012 年 9 个 季度 中 ， 
中 股票 所 占 的 比例 。 






一 个 投资 组 合 











2010 年 第 一 季度 2011 年 第 一 季度 


2010 年 第 二 季度 31.0 2011 年 第 二 季度 313 
2010' 年 第 三 季度 29.9 2011 年 第 三 季度 32;0 
2010 年 第 四 季度 。 30.1 2011 年 第 四 季度 


2012 年 第 一 季度 


a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 

b. 用 指数 平滑 法 来 预测 这 个 时 间 序 列 ， 分别 考虑 
用 平滑 常数 a=0.2,，0.3 和 0.4。 哪 一 个 平滑 常 
数 提 供 更 准确 的 预测 ? 

c. 2009 年 第 二 季度 投资 组 合 中 股票 所 占 比例 的 
预测 值 是 多 少 ? 


44. 为 了 各 免 计 息 支票 账户 每 月 的 服务 费 ， 客 户 必 须 


保留 最 低 的 日 平均 余额 。2008 年 Barkrate 在 25 个 
最 大 的 都 市 地 区 调查 了 249 家 银行 和 储 鞋 结构 ， 表 
明 为 了 避免 月 服务 费 你 必须 保留 的 平均 祭 额 为 
3 462 美元 。 由 于 平均 服务 费用 为 11.97 美元 ， 平 
均 利 息 率 和 仅 为 0.24% ， 如 果 银 行 的 信用 贷款 额度 
基本 上 等 于 避免 每 月 的 服务 费 所 需要 的 月 平均 余 
额 的 话 ， 具 有 计 息 支票 巍 户 的 客户 没有 得 到 大 多 
的 收益 (Bankrate website，2008 年 10 月 27 日 )。 
下 表 是 2001 ~ 2008 年 为 了 训 免 支付 每 月 的 服务 费 
所 需要 的 最 低 平均 余额 。 

年 份 。 ” 余额 (美元 ) 








2 435 : 
2002 2 593 2006 2.660 
. z 2007 3 317 
2003 2 258 2008 3 462 
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a. 绘制 时 间 序 列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 
b， 用 Minitab 或 Excel， 建 立 这 个 时 间 序 列 的 线性 


昌 原 书 此 处 有 误 ， 应 该 为 2012 年 。 一 一 译 者 注 







46. 


48. 


ba 
加 法 分 解 模型 
Y = Trend, + Seasonal, + [rregular， 
乘法 分 解 模型 
Y, = Trend, x Seasonal, x Irregular, 


(17-11) 


(17=13) 


(17-14) 





趋势 方程 。 计 算 2009 年 为 了 避免 每 月 的 服务 费 

需要 的 平均 佘 额 的 估计 值 。 

c, 用 Minitab 或 了 Exoel， 建 立 这 个 时 间 序 列 的 二 次 趋 
势 方程 。 计 算 2009 年 为 了 避免 每 月 的 服务 费 需 
要 的 平均 余额 的 估计 值 。 

d. 利用 MSE， 哪 个 方法 对 历史 数据 提供 更 准确 的 
预测 ? 

e. 对 这 些 数据 ， 你 建议 是 用 线性 趋势 方程 还 是 二 
次 曲线 方程 建立 2009 年 的 预测 值 ? 请 解释 。 

芯 奥 瓦 州 达 文 波 特 的 Mayfair 百货 商店 由 于 密 西 西 

比 河 洪水 造成 的 损失 ， 被 迫 在 7~8 月 停业 。 该 商 

店 正 试图 确定 由 此 而 损失 的 销售 额 。1~6 月 的 销 

售 额 数据 如 下 。 


销售 疾 销售 额 
i “60 本 天 
1 185. 72 4 210. 36 
网 167. 84 可 25S.S7 
3 205, 11 6 261. 19 





a 利用 a=0.4 的 指数 平滑 法 预测 7 月 和 8 月 的 销 
售 额 (提示: -用 7 月 的 预测 值 作为 7 月 的 实际 
销售 额 来 预测 8 月 的 销售 额 )。 使 用 指数 平滑 
法 ， 对 未 来 超过 一 个 时 期 的 预测 ， 进 行 评论 。 

b. 利用 趋势 推测 法 预测 7 月 和 8 月 的 销售 额 。 

c. 以 7 月 和 名 月 所 损失 的 销售 额 240 000 美元 为 依 
据 ，Mayfair 的 保险 公司 提出 了 一 个 理赔 方案 。 
这 个 数据 合理 吗 ? 如 果 不 合理 ,你 认为 合理 的 
理赔 总 额 应 为 多 少 ? 

Costello 音乐 公司 开业 至 今 已 有 5 年。 在 这 期 间 ， 

钢琴 的 销售 量 从 第 一 年 的 12 架 增 加 到 最 近 的 76 

架 。 公 司 的 老板 Fred Costello 想 预 测 来 年 的 钢琴 销 

售 量 。 有 关 的 历史 资料 如 下 。 

年 份 ] 2 3 4 5 

i 


a. 绘制 时 间 序 


列 图 ， 数 据 中 呈现 何 种 类 型 的 模式 ? 


b. 建立 这 个 时 间 序 列 的 线性 趋势 方程 。 该 公司 每 


年 实现 的 销售 量 平均 增加 多 少 ? 
c. 预测 第 6 年 和 第 7 年 的 销售 量 。 


50. 参见 第 49 题 的 Costello 音乐 公司 问题 。 
a. 用 时 间 序 列 分 解 方 法 ， 计 算 4 个 季度 的 季节 指数 。 
b. 什么 时 候 Costello 音乐 公司 会 经 受 最 大 的 季节 影 


32: 


案例 1 = 


响 ? 这 个 季节 影响 合理 吗 ? 请 解释 。 


Hudson Marine 公司 在 过 去 7 年 中 是 C&D 航海 无 线 
电 设备 的 授权 代理 商 。 下 表 是 每 年 无 线 电 设备 的 


销售 量 的 数据 。 


年 份 1 2 3 4 5 6 
销售 数量 ， 35 50 75 90 105 110 


7 
130 


预测 食品 和 饮料 的 销售 
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a. 绘制 时 间 序 列 图 ,是否 呈现 出 线性 趋势 ? 
b. 用 Minitab 或 Excel， 建 立 这 个 时 间 序 列 的 线性 


趋势 方程 。 


c. 利用 (b) 中 所 建立 的 线性 趋势 方程 ， 计 算 第 8 年 
的 年 销售 量 预测 值 。 
54, 参见 第 53 题 的 Hudson Marine 问题 。 
a. 计算 这 个 时 间 序 列 的 中 心 化 移动 平均 数 。 
b. 绘制 能 同时 显示 中 心 化 移动 平均 数 和 原始 时 间 
序列 的 时 间 序 列 图 。 讨论 原始 时 间 序 列 图 和 中 


心 化 移动 平均 时 间 序 列 


之 疗 的 差 弄 。 


c. 计算 4 个 季 麻 的 季节 指数 。 
d. 什么 时 候 Hudson Marine 公司 会 经 受 最 大 的 季节 
影响 ? 这 个 季节 影响 合理 吗 ? 请 解释 。 





在 佛罗里达 州 迈 尔 斯 堡 附近 的 卡 著 带 瓦 岛 上 的 Vintage 人 饭店， 由 Karen Payne 拥有 并 经 营 。 人 饭店 刚刚 经 营 了 3 
年 。 作 为 一 家 专门 从 事 海鲜 的 高 档 餐 饮 企业 ， 自 从 Karen 的 饭店 开业 以 来 ， 她 一 直 在 为 Vintage 树立 声誉 。 经 过 
Karen 及 其 员工 的 努力 ， 她 的 饭店 已 经 成 为 岛 上 最 好 的 且 营 业 额 增长 最 快 的 饭店 之 一 。 

为 了 更 好 地 规划 饭店 未 来 的 发 展 ，Karen 需要 建立 一 个 系统 以 提前 一 年 预测 食品 和 饮料 的 每 个 月 的 销售 额 。 
表 17-26 是 开业 前 3 年 的 食品 和 饮料 的 销售 总 额 数据 。 


表 17-26 Vintage 饭店 的 食品 和 饮料 的 销售 总 额 


月 份 第 1 年 
1 242 
2 235 
3 232 
4 178 
5 184 
6 140 
7 145 
8 152 
9 110 
10 130 
11 152 
12 206 


管理 报告 
对 Vintage 饭店 的 销售 额 数据 进行 分 析 ， 请 为 Karen 准备 一 份 报告 ,该 报告 总 结 了 你 的 发 现 、 预 测 和 建议 。 和 包括 : 
1. 时 间 序 列 图 。 对 时 间 序 列 的 基本 模式 作出 评论 。 
2. 数据 的 季节 性 分 析 。 计 算 每 个 月 的 季节 指数 ， 并 对 季节 性 的 高 销售 月 和 低 销售 月 做 出 评论 。 季 节 指 数 是 否 
有 直观 上 的 意义 ? 请 讨论 。 
3. 消除 时 间 序 列 的 季节 影响 。 在 消除 季节 影响 的 时 间 序 列 中 ， 是 下 呈现 出 任何 趋势 ? 
4. 利用 时 间 序 列 分 解法 ， 预 测 第 4 年 1~12 月 的 销售 额 。 
5. 利用 虚拟 变量 回归 法 ， 预 测 第 4 年 1~12 月 的 销售 额 。 
6. 在 你 报告 的 附录 中 ， 给 出 你 的 计算 汇总 表 和 图 。 


(单位 : 1 000 美元 ) 
第 3 年 
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假设 第 4 年 1 月 份 的 销售 额 为 295 000 美元 ， 你 的 预测 误差 是 多 少 ? 如 果 这 个 误差 比较 大 ，Karen 可 能 会 对 你 


的 预测 值 种 实际 销售 额 之 间 的 差异 生产 疑惑 ， 你 将 如 何 消 除 她 对 预测 方法 的 怀疑 ? 





案例 17-2 预测 机 失 的 销售 闸 。 


当 8 月 31 日 飓风 侵袭 时 ，Carlson 百货 商店 遭受 了 严重 的 损失 。 商 店 被 迫 关闭 了 4 个 月 (9~12 月 )， 目 前 ，Carl- 
son 正和 保险 公司 就 停业 期 间 所 损失 的 销售 总 额 进行 谈判 。 必 须 解 决 的 两 个 关键 性 问题 是 : (DD 如 果 没 有 遭 到 飓风 的 侵 
歼 ，Carlson 将 会 有 多 少 销售 额 ; @ 由 于 商业 活动 的 增加 得 到 了 额外 的 销售 额 ，Carlson 是 否 会 有 权 获 得 任何 赔偿 。 该 


县 得 到 了 超过 80 亿美 元 的 联邦 灾难 救济 金 和 保险 金 ， 这 导致 百货 商店 销售 额 的 增加 和 其 他 众多 的 商业 活动 。 


表 17-27 是 Carlson 遗 到 飓风 袭 击 之 前 48 个 月 的 销售 额 ， 表 17-28 是 该 县 所 有 百货 商店 遭 到 飓风 赣 击 之 前 48 个 月 
的 销售 总 额 ， 同 时 也 给 出 了 在 Carlson 百货 商店 停业 的 4 个 月 中 的 销售 总 额 。Carlson 的 管理 人 员 要 求 你 分 析 这 些 数 
据 ， 并 且 估 计 Carlson 百货 商店 9~12 月 损失 的 销售 额 。 他 们 同时 要 求 你 确定 ， 在 同一 时 期 是 否 存 在 由 于 飓风 而 产生 


的 额外 销售 额 。 如 果 存 在 的 话 ，Carlson 除了 得 到 正常 销售 额 的 补偿 外 ， 还 有 权 得 到 额外 销售 额 是 赔偿 补偿 。 


表 17-27 Carlson 百货 商店 的 销售 额 (单位 : 10 亿美 元 ) 
月 份 年 份 年 份 2 年 份 3 年 份 4 年 份 5 
1 1. 45 2.31 2. 3 2. 56 
2 1. 80 1. 89 1.99 2.28 
3 2. 03 2. 02 2. 42 2. 69 
4 1. 99 2 23 2. 45 2. 48 
5 2. 32 2.39 2.57 2.73 
6 2. 20 2, 14 2.42 37 
7 D1 2 2.40 2.31 
8 2.43 2.21 2; 50 2.23 
9 1.71 1. 90 1. 89 2.09 
10 1.90 21, 30 2. 29 2.54 
11 2.74 2. 56 2,.83 2.97 
12 4.20 4.16 4. 04 4. 35 
表 17-28 该 县 百货 商店 的 销售 额 (单位 : 10 亿美 元 ) 
月 份 年 份 1 年 份 2 年 份 3 年 份 4 年 份 5 
1 46. 80 46. 80 43. 80 48. 00 
2 48. 00 48. 60 45. 60 51.60 
3 60. 00 59. 40 57. 60 57. 60 
4 57. 60 58. 20 53. 40 58. 20 
5 61. 80 60. 60 56. 40 60. 00 
6 58. 20 55.20 _ 52. 80 57. 00 
7 56. 40 51. 00 54. 00 57. 60 
8 63. 00 58. 80 60. 60 61. 80 
9 55. 80 57. 60 49. 80 47. 40 69. 00 
10 56. 40 53. 40 54.60 54. 60 75. 00 
11 71.40 71.40 65. 40 67. 80 85. 20 
12 117, 60 114. 00 102. 00 100. 20 121. 80 





请 为 Carlson 百货 商店 的 管理 人 员 准 备 报告 ， 该 报告 总 结 了 你 的 发 现 、 预 测 和 建议 ， 包 括 : 
1. 假如 没有 飓风 缆 击 ， 估 计 Carlson 的 销售 额 。 

2. 假如 没有 飓风 袭击 ， 估 计 全 县 百货 商店 的 销售 额 。 

3. 估计 Carlson 百货 商店 9~12 月 停业 期 间 损失 的 销售 额 。 


除 此 之 外 ， 利 用 全 县 百货 商店 9~12 月 的 实际 销售 额 和 (2) 的 估计 ， 对 飓风 产生 额外 销售 额 的 提 法 ， 作 出 


同意 或 反对 的 判断 。 
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实践 中 的 统计 


West Shell Realtors 公司 ” 
俄 训 俄 州 ， 辛 辛 那 提 


West Shell Realtors 公司 成 立 于 1958 年 ， 刚 成 立时 只 
有 一 间 办 事 处 和 三 个 营销 人 员 。1964 年 公司 开始 实施 一 
项 长 期 扩张 方案 ， 每 年 都 有 新 的 办 事 处 加 入 。 几 年 以 
后 ，West Shell Realtors 已 经 是 大 辛辛那提 地 区 最 大 的 
房地产 经 纪 公 司 之 一 ， 而 且 在 俄亥俄 州 的 西南 部 、 印 
第 安 纳 州 的 东南 部 以 及 肯塔基 州 的 北部 都 设 有 办 事 处 。 

统计 分 析 可 以 帮助 房地产 公司 ， 如 West Shell Re- 
altors 监督 其 销售 业绩 。West Shell Realtors 公司 的 每 个 
办 事 处 及 总 公司 每 个 月 都 编制 业绩 报表 。 有 关 总 销售 
金额 、 已 销售 单元 个 数 及 每 个 单元 的 平均 售 价 的 统计 
汇总 数据 ， 对 于 办 事 处 的 经 理 和 公司 高 层 领 导 掌握 公 
司 的 经 营 过 程 和 难点 所 在 至 关 重 要 。 

除了 对 每 个 月 的 业绩 进行 总 结 之 外 ， 该 公司 还 利 
用 统计 方法 来 指导 公司 的 发 展 计划 和 和 战略 。West Shell 
Realtors 正在 执行 一 项 有 计划 的 扩张 战略 。 每 当 一 项 扩 
张 计划 需要 成 立 一 个 新 的 销售 办 事 处 时 ， 办 事 处 的 选 
址 问题 就 会 成 为 公司 关心 的 焦点 。 房 屋 的 销售 价格 、 


周转 率 和 预计 的 销售 量 都 是 评价 和 比较 办 事 处 选 址 时 
需要 考虑 的 数据 。 

例如 ， 该 公司 选择 了 两 个 郊区 一 一 克利 夫 顿 和 罗 
斯 劳 尔 作为 新 的 办 事 处 首选 地 点 。 在 比较 两 个 地 区 时 
需要 考虑 很 多 因素 ;其 中 包括 房屋 的 销售 价格 。 公 司 
利用 非 参数 统计 方法 来 帮助 确定 这 两 个 地 区 销售 模式 
的 不 同 之 处 。 

公司 从 克利 夫 顿 选取 了 25 笔 销售 业务 ， 从 罗斯 劳 
尔 选 取 了 18 笔 销 售 业 务 组 成 样本 ,然后 选择 曼 - 惠 特 
尼 一 威 尔 科 克 森 秩 和 检验 法 对 销售 价格 的 差异 进行 统 
计 奏 验 。 在 显著 性 水 平 0.05 下 ， 曼 - 惠 特 尼 一 威 尔 科 
克 森 检验 并 没有 拒绝 这 两 个 地 区 销售 价格 相等 这 一 原 
假设 。 于 是 ,公司 在 地 点 选择 过 程 中 可 以 集中 考察 房 
屋 销售 价格 以 外 的 选择 标准 。 

在 本 章 中 ,我 们 将 学 习 如 何 应 用 诸如 曼 - 惠 特 尼 - 
威 尔 科 克 森 检 验 之 类 的 非 参数 统计 检验 ， 同 时 ， 我 们 
还 将 讨论 有 关 这 些 检验 的 正确 解释 。 


到 目前 为 止 ， 本 书 统计 推断 中 所 介绍 的 方法 都 是 通常 所 知 的 参数 方法 ( parametric method) 。 这 些 方法 通常 始 
于 假定 总 体 的 概率 分 布 服从 正 态 分 布 ， 基 于 这 个 假定 ， 统 计 学 家 可 以 得 到 用 于 推断 一 个 或 多 个 总 体 参 数 (例如 总 
体 均值 wv、 总 体 标准 差 o) 的 抽样 分 布 。 例如， 在 第 9 章 ， 我 们 介绍 了 假定 总 体 服从 正 态 概率 分 布 ， 其 参数 和 o 
未 知情 况 下 对 总 体 均 值 进行 统计 推断 的 方法 。 用 样本 标准 差 * 来 估计 总 体 标准 差 v， 对 总 体 均值 进行 推断 的 统计 
量 服从 + 分布 。 因 此 ， 对 正 态 总 体 均 值 可 以 用 分 布 确定 置信 区 间 和 进行 检验 。 

在 本 章 中 ， 我 们 将 介绍 用 于 对 总 体 进行 推断 的 非 参数 方法 ( nonparametric method) ， 非 参数 方法 对 总 体 概 率 分 
布 形式 的 假定 没有 要 求 ， 因 此 ， 非 参数 方法 也 被 称 为 无 分 布 方法 ( distribution-free method) 。 

绝 大 多 数 的 参数 统计 方法 要 求 数量 型 数据 ， 而 非 参数 方法 则 允许 基于 分 类 型 或 品质 型 数据 进行 推断 。 用 于 非 参 数 方 
法 的 计算 一 般 与 分 类 型 数据 有 关 。 即 使 数据 是 数值 型 的 ， 为 进行 非 参数 检验 ， 我 们 也 要 将 其 转化 为 分 类 型 数据 。 本 章 的 
第 18. 1 节 我 们 将 演示 如 何 用 二 项 分 布 对 两 类 数据 以 及 总 体 中 位 数 进行 推断 ; 在 接 下 来 的 三 节 中 ， 我 们 演示 如 何 用 秩 - 顺 
序数 据 对 两 个 或 多 个 总 体 进行 非 参数 检验 。 最 后 一 节 ， 我 们 用 秩 - 顺序 数据 对 两 个 变量 计算 等 级 相关 系数 。 


18. 1 符号 检验 


符号 检验 (sign test) 是 假设 检验 中 一 种 多 用 途 的 非 参 数 方法 ， 其 利用 p=0. 50 的 二 项 分 布 作为 抽样 分 布 。 它 
对 总 体 的 分 布 没 有 假定 的 要 求 。 本 节 我 们 将 介绍 符号 检验 的 两 个 应 用 : 一 个 是 关于 总 体 中 位 数 的 检验 ; 另 一 个 是 
两 个 匹配 总 体 之 差 的 检验 。 


晶 ” 作 者 感谢 为 “实践 中 的 统计 ”提供 了 本 案例 的 WWest Shell Realtors 公司 的 Rodney Fightmaster 先生 。 
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18. 1.1 总 体 中 位 数 假 设 检验 


在 第 9 章 中 ， 我 们 阐述 了 如 何 利用 假设 检验 来 对 总 体 均 值 进行 检验 。 本 节 我 们 将 阐述 如 何 用 符号 检验 来 对 总 
体 中 位 数 进行 假设 检验 。 如 果 我 们 考虑 一 个 总 体 ， 其 中 没有 任何 一 个 数值 恰好 等 于 中 位 数 ， 则 中 位 数 是 中 心 趋势 
的 度量 ， 它 将 总 体 化 分 成 为 两 部 分 ， 其 中 50% 的 值 大 于 中 位 数 ， 另 外 50% 的 值 小 于 中 位 数 。 每 当 总 体 是 偏 斜 分 布 
时 ， 作 为 总 体 中 心 位 置 的 最 佳 度量 ， 中 位 数 也 常常 优 于 平均 数 。 符 号 检验 ” 表 18-1 Cape May 警 片 在 10 个 Lawler 


提供 了 检验 总 体 中 位 数 假设 的 非 参数 方法 。 食品 店 的 周 销售 额 
为 了 阐明 符号 检验 ， 我 们 考虑 Lawler 食品 连锁 店 中 Cape May 警 片 周 销 “商店 编号 周 销售 额 (美元 _ 

售 额 。 根 据 制造 商 估计 每 个 食品 店 每 周 销售 额 的 中 位 数 应 为 450 美元 ， 洒 

Lawler 的 经 理 作出 销售 新 昔 片 产品 的 决定 。 在 销售 该 产品 3 个 月 后 ，Lawler 36 415 

的 经 理 要 求 进行 周 销售 额 总 体 中 位 数 的 假设 检验 。 ER 二 

Ho; 总 位 数 = 450 63 474 

再 :中 位 数 关 450 39 662 

表 18-1 是 随机 抽取 的 10 个 Lawler 食品 店 一 周 的 销售 额 数 据 。 在 符号 检验 2 a 

中 ,我 们 将 每 一 个 样本 观测 值 与 总 体 中 位 数 的 假设 值 进 行 比 较 。 如 果 观 测 值 44 721 


大 于 假设 值 ,我 们 用 加 号 表示 ; 如 果 观 测 值 小 于 假设 值 ， 我 们 用 减 号 表示 ; 
如 果 观 测 值 恰好 等 于 假设 值 ” ， 则 我 们 应 该 将 它 从 样本 中 剔除 ， 并 且 在 一 个 较 小 的 样本 容量 中 进行 分 析 ， 只 使 用 被 标 
记 为 加 号 或 减 号 的 观测 值 。 它 将 样本 数据 转化 为 加 号 或 减 号 ， 因 此 ， 这 种 非 参 数 方法 被 命名 为 符号 检验 。 

考虑 表 18-1 中 的 样本 数据 。 第 一 个 观测 值 485 大 于 假设 的 中 位 数 450， 记 为 加 号 ; 第 二 个 观测 值 562 大 于 假设 的 
中 位 数 450， 记 为 加 号 ， 以 此 类 推 。 表 18-2 是 10 个 样本 观测 值 对 应 的 加 号 或 减 号 数据 ， 注 意 有 7 个 加 号 和 3 个 减 号 。 


表 18-2 周 销售 额 总 体 中 位 数 符号 检验 的 Lawler 样本 数据 


商店 编号 周 销售 额 (美元 ) 符号 商店 编号 周 销售 额 (美元 ) 符号 
S6 485 十 63 474 十 
19 562 + 39 662 十 
36 415 一 84 380 一 
128 860 + 102 515 + 
12 426 一 了 4 721 


加 号 和 减 号 的 分 配 适 合 应 用 二 项 分 布 ， 样 本 容量 n =10 是 试验 的 次 数 ， 每 次 试验 有 两 个 可 能 的 结果 加 导 或 
减 号 ， 而且 试验 是 独立 的 。 令 p 表示 加 号 的 概率 ， 如 果 总 体 中 位 数 为 450， 则 p=0.50， 即 总 体 中 应 该 有 50% 的 加 
号 和 350% 的 减 号 。 因 此 ， 就 二 项 概率 p 而 言 ， 总 体 中 位 数 的 符号 检验 的 假设 

了 :总 位 数 = 450 
H, :中 位 数 关 450 
转化 为 下 面 关于 二 项 概率 p 的 假设 
H,:p = 0.50 
H,:p A 0.50 

如 果 Hu 没有 被 拒绝 ， 我 们 不 能 得 出 p 闭 0.5 的 结论 ， 进 而 我 们 不 能 得 出 总 体 中 位 数 关 450 的 结论 。 然 而， 如 
果 Hu 被 拒绝 ,我们 能 得 出 p 半 0. 5， 进 而 我 们 能 得 出 总 体 中 位 数 冯 450。 

由 于 n=10 个 食品 店 或 n=10 次 试验 ， 且 p =0.50， 我 们 用 附录 B 中 的 表 5 得 到 在 假设 H。 为 真 的 条 件 下 加 号 
个 数 的 二 项 分 布 的 概率 值 ， 这 些 概 率 值 如 表 18-3 所 示 。” 图 18-1 是 这 个 二 项 概率 分 布 的 图 形 表示 。 


名 ”观测 值 等 于 假设 值 将 被 剔除 ， 只 对 具有 加 号 或 减 号 的 观测 值 进行 分 析 。 
思 ” 当 样本 容量 小 于 或 等 于 20 时 ， 在 附录 B 的 表 5 中 可 以 查 到 具体 的 三 项 概率 。 用 Excel 或 Minitab 可 以 得 到 任何 样本 容量 的 二 项 概率 。 
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表 18-3 n=10,， p=0.50 的 0.30 
二 项 概率 
a 025 
Fa Wl 
0.20 
1 0.009 8 
2 0.0439 证 0.15 
3 0:1172 译 
4 0. 205 1 0.10 
5 0. 246 1 
6 0. 205 1 0.05 
7 0 1f72 
8 0.0439 .ki 
9 0.0098 加 号 个 数 
10 0.0010 


图 18-1 n=10,p=0.50 的 加 号 个 数 的 二 项 抽样 分 布 


下 面 我 们 演示 如 何 用 二 项 分 布 进行 总 体 中 位 数 的 假设 检验 。 我 们 使 用 0. 10 为 检验 的 显著 性 水 平 。 由 于 
样本 数据 中 观测 到 的 加 号 个 数 为 7， 位 于 二 项 分 布 的 上 侧 ， 我 们 计算 加 号 大 于 或 等 于 7 的 概率 ， 即 加 号 个 数 
为 7，8, 9 或 10 的 概率 。 将 表 18-3 中 的 这 些 概 率 相 加 ， 我 们 得 到 0. 117 2 +0.043 9 +0.0098 +0.0010 = 
0. 1719。 由 于 是 双 侧 假设 检验 ， 将 这 个 上 侧 概率 加 人 和信， 得 到 pp- 值 为 2 x0.1719 =0.3438。 由 于 Fp- 值 >a， 
所 以 我 们 不 能 拒绝 假设 Hs;。 对 于 二 项 概率 ， 我 们 不 能 拒绝 Hu: p=0.50， 因 此 我 们 不 能 拒绝 总 体 中 位 数 为 
450 的 假设 。 

在 本 例 中 ,总 体 中 位 数 的 假设 检验 是 一 个 双 侧 检验 ， 但是， 关于 总 体 中 位 数 的 符号 检验 也 有 可 能 是 单 侧 。 例 
如 我 们 所 用 的 假设 是 上 侧 检 验 ， 因 此 ， 原 假设 和 备 择 假设 可 表示 为 

Hu :总 位 数码 450 
H. :中 位 数 > 450 
”相应 的 产值 等 于 样本 中 加 号 个 数 大 于 或 等 于 7 的 二 项 概率 。 这 个 单 侧 p- 值 等 于 0. 117 2 +0. 043 9 +0.009'8 +0. 001 
0 =0.1719。 如 果 转 化 为 下 侧 检验 的 例子 ，P- 值 将 是 加 号 个 数 为 小 于 或 等 于 7 的 概率 。 

我 们 刚才 介绍 了 使 用 p =0. 50 的 二 项 分 布 的 应 用 。 当 样本 容量 等 于 或 小 于 20 时 ， 用 附录 B 表 B-5 给 出 的 二 项 
概率 能 计算 p- 值 。 对 于 较 大 的 样本 容量 ,我 们 根据 二 项 分 布 的 正 态 分 布 近似 来 计算 产值 ， 这 使 得 计算 变 得 迅速 且 
容易 。 下 面 的 例子 阐明 符号 检验 的 大 样本 应 用 。 

一 年 前 新 建 住宅 价格 的 中 位 数 为 236 000 美元 。 但 是 ， 当 前 经 济 低迷 ， 使 得 房地产 公司 用 当前 的 住宅 销售 的 
样本 数据 来 确定 今年 新 建 住宅 价格 的 总 体 中 位 数 是 否 比 一 年 前 有 所 下 降 。 

新 建 住宅 价格 的 总 体 中 位 数 的 假设 检验 如 下 : 

H, :中 位 数 三 236000 美元 
H, :中 位 数 < 236 000 美元 

我 们 在 显著 性 水 平 0. 05 下 进行 这 一 检验 。 

由 61 所 最 近 新 建 住宅 组 成 的 一 个 样本 ，22 所 住宅 的 价格 高 于 236 000 美元 ，38 所 住宅 的 价格 低 于 236 000 美 
元 ， 还 有 1 所 住宅 的 价格 恰好 等 于 236 000 美元 。 在 吻 除 价格 等 于 假设 中 位 数 价格 236 000 美元 的 那 所 住宅 后 。 符 
号 检验 中 有 22 个 加 号 、38 个 减 号 ， 样 本 容量 为 60。 

总 体 中 位 数 大 于 或 等 于 236 000 美元 的 原 假 设 表示 成 二 项 分 布 的 假设 为 了 : p=0.5。 如 果 Ho 为 真 ， 我 
们 期 望 加 号 个 数 为 0.50 x60 =30 (所 ) 住宅 。 样 本 结果 表明 有 22 个 加 号 ， 位 于 二 项 分 布 的 下 侧 ， 则 p- 值 
是 当 p=0.50 时 ， 加 号 个 数 小 于 或 等 于 22 的 概率 。 虽 然 计 算 0，1，2，…，22 的 二 项 概率 的 精确 值 并 求 和 
是 可 能 的 ， 但 我 们 用 二 项 分 布 的 正 态 分 布 近似 使 计算 变 得 很 容易 。 对 这 个 近似 ， 正 态 分 布 的 均值 和 标准 差 
如 下 所 示 : 
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王位 
二 =- 人 sa | 





对 于 n=60 和 p=0.50, 利用 式 (18-1) 和 式 (18-2) ， 加 号 个 数 的 抽样 分 布 能 近似 为 一 个 正 态 分 布 ， 其 中 
1 = .04435065 = 0 D0 xD =30 
og = V0.25n = v0.25 x60 = 3.873 

现在 我 们 用 正 态 分 布 近似 加 号 个 数 小 于 或 等 于 22 的 二 项 概率 。 在 我 们 进行 近似 之 前 ， 需 要 牢记 二 项 分 布 是 
离散 型 的 ， 而 正 态 分 布 是 连续 型 的 ， 因 此 ， 解 决 这 一 问题 ， 用 区 间 (21. 5, 22.5) 上 的 正 态 概率 来 计算 个 数 为 22 
的 二 项 概率 。0. 5 被 称 为 连续 性 校正 因子 。 于 是 ， 计 算 
加 号 个 数 小 于 或 等 于 22 的 p- 值 ， 近 似 为 服从 均值 
猴 =30， 标 准 差 o =3. 873 的 正 态 随机 变量 x 小 于 或 等 于 
22.5 的 概率 ， 图 18-2 是 这 个 p- 值 的 图 示 。 
利用 正 态 分 布 ， 我们 得 到 p- 值 如 下 : 


rr 22 .5-30\ 
pe: 慎 二 plw 22.5) =P(z < 和 ) 








= P(z -1.94) 
利用 正 态 概率 分 布 表 ， 我 们 看 到 z = -1.94 的 累积 


概率 提供 的 p- 值 =0.026 2。 由 于 0.026 2 <0.05， 我 们 OS 
拒绝 原 假设 ， 并 且 得 出 结论 : 新 建 住宅 价格 的 中 位 数 低 图 18-2 新 建 住宅 价格 中 位 数 的 符号 
于 一 年 前 的 中 位 数 价格 236 000 美元 。 检验 中 产值 的 正 态 分 布 近似 


注释 和 评论 

1. 用 来 说 明 总 体 中 位 数 的 假设 检验 的 例子 涉及 周 销售 人 额 和 住宅 价格 数据 ， 这 些 变量 的 概率 分 布 类 型 通常 是 非 
对 称 的 ， 而 且 大 多 数 常常 是 右 偏 的 。 在 这 种 情形 下 ， 总 体 中 位 数 而 非 总 体 均 值 成 为 中 心 位 置 的 首选 测度 。 
一 般 地 ， 当 总 体 非 对 称 时 ， 总 体 中 位 数 的 非 参 数 符号 检验 通常 是 较 合适 的 统计 检验 。 

2. 符号 检验 的 二 项 抽样 分 布 可 以 用 来 计算 总 体 中 位 数 的 置信 区 间 估 计 。 然 而 ， 这 个 计算 相当 复杂 而 且 极 少 能 
用 手工 完成 。 利 用 如 Minitab 等 统计 软件 包 能 够 得 到 总 体 中 位 数 的 置信 区 间 ， 在 附录 18A 中 描述 了 确定 总 
体 中 位 数 置信 区 间 的 Minitab 步骤 。 用 本 节 的 住宅 价格 的 例子 ，Minitab 给 出 了 新 建 住宅 价格 中 位 数 的 置信 
区 间 为 (183 000 美元 ，231 000 美元 ) 。 


18. 1.2 匹配 样本 的 假设 检验 

在 第 10 章 ， 我 们 介绍 了 匹配 样本 实验 设计 ，n 个 实验 单位 中 的 每 一 个 提供 一 对 观测 值 ， 其 中 一 个 来 自 总 体 1， 
另 一 个 来 自 总 体 2。 使 用 数量 型 数据 并 且 假 设 匹配 观测 值 之 差 服从 正 态 分 布 ， 则 可 以 使 用 1 分 布 对 两 个 总 体 均值 
之 差 进 行 推断 。 

在 接 下 来 的 例子 中 我 们 用 非 参 数 符号 检验 来 分 析 匹 配 样本 数据 。 与 分布 方 法 不 同 (其 要 求 数 量 型 数据 ， 且 
假定 二 者 之 差 服 从 正 态 分 布 )， 符 号 检验 既 能 分 析 分 类 型 数据 ， 也 能 分 析 数 量 型 数据 ， 并 且 对 二 者 之 差 的 分 布 没 
有 假定 。 在 市 场 调查 中 要 求 ”个 潜在 的 消费 者 比较 两 个 品牌 的 产品 〈 如 咖啡 、 软 饮料 或 洗涤 剂 ) 是 匹配 样本 的 典 
型 设计 。 不 需要 得 到 每 个 消费 者 对 品牌 偏好 的 数值 测度 ， 只 要 求 每 个 消费 者 陈述 对 品牌 偏好 。 考 虑 下 面 的 例子 。 

阳光 海岸 农场 生产 一 种 名 为 “柑橘 谷 ”的 橙 计 。 柑 郴 谷 的 主要 竞争 对 手 来 自 名 为 “热带 橘 ” 的 橙汁 饮品 。 在 
消费 者 对 这 两 种 品牌 偏好 的 比较 中 ，14 名 消费 者 面 对 的 两 种 橙汁 产品 都 没有 标 出 品牌 ， 每 一 各 消费 者 第 一 次 品尝 
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的 品牌 都 是 随机 选择 的 。 如 果 消 费 者 更 偏好 柑橘 谷 ， 则 用 加 号 来 表示 ; 如 果 消 费 者 更 侦 好 热带 桶 ， 则 用 减 号 来 表 
示 ; 如 果 消 费 者 对 两 种 产品 的 偏好 无 差异 ， 则 没有 符号 表示 。 表 18-4 是 参与 研究 的 14 名 消费 者 的 数据 。 


表 18-4 ”阳光 海岸 农场 口味 检测 的 偏好 数据 


消费 者 偏好 的 品牌 符号 消费 者 偏好 的 品牌 符号 

I 热带 桶 - 8 热带 橘 - 
2 热带 桶 - 9 热带 桶 - 
3 柑 栖 谷 + 10 无 偏好 

4 热带 栖 - 1] 热带 桶 - 
5 热带 桶 — 12 柑 栖 谷 二 
6 无 偏好 13 热带 桶 - 
7 热带 桔 = 14 热带 桶 - 


在 剔除 了 对 两 种 品牌 的 产品 无 偏好 的 2 名 消费 者 后 ，n = 12 名 消费 者 都 能 表达 出 对 两 种 品牌 之 一 的 偏好 ， 因 
此 数据 转化 为 有 2 个 加 号 和 10 个 减 号 的 符号 检验 。 令 表示 消费 者 总 体 中 偏好 柑橘 谷 的 所 占 的 比例 ,我 们 想 要 检 
验 对 两 种 品牌 的 偏好 没有 差异 的 假设 表示 如 下 : 
H,:p = 0.50 
H.:p #* 0.50 
如 果 H, 没有 被 拒绝 ， 我 们 不 能 表明 消费 者 对 两 种 品牌 的 偏好 存在 差异 。 然 而 ， 如 果 HH, 被 拒绝 ， 我 们 就 可 以 
认为 消费 者 对 两 种 品牌 的 偏好 存在 差异 。 该 检验 的 显著 性 水 平 为 0.05，。 
我 们 将 进行 本 节 先 前 所 述 的 符号 检验 。 加 号 个 数 的 抽样 分 布 服从 p =0.50 和 n=12 的 二 项 分 布 。 利 用 附录 B 中 的 
表 5 我 们 得 到 加 号 个 数 的 二 项 概率 ， 如 表 18-5 所 示 。 在 假设 耳 , 为 真 的 条 件 下 ， 我 们 期 望 有 0.50nx =0. 50 x 12 =6 个 加 
号 。 由 于 样本 中 只 有 两 个 加 号 ， 结 果 在 三 项 分 布 的 下 侧 。 为 计算 双 侧 检验 的 产值 ， 我 们 先 计算 加 号 个 数 小 于 或 等 于 2 
的 概率 然后 加 倍 。 利 用 表 18-5 中 的 0，1 和 2 的 二 项 概率 , p- 值 =2 x(0.0002+0.0029+0.0161) =0.0384， 由 于 
0.038 4 <0.05， 所 以 我 们 拒绝 假设 Ho， 口味 检测 提供 证 据 表明 消费 者 对 两 种 品牌 的 橙汁 的 偏好 存在 差异 。 我 们 有 必 
要 向 阳光 海岸 农场 提出 建议 ， 因 为 竞争 对 手 热带 林产 品 更 受 青 睐 ， 因 此 阳光 海岸 农场 应 该 寻求 处 理 此 问题 的 战略 。 


表 18-5 n=12，p=0.50 的 二 项 概率 


加 号 个 数 概率 加 号 个 数 概率 
0 0. 000 2 10 0.016 1 
0. 002 9 11 0.002 9 
0.016 1 12 0:000 2 





1 
2 
3 0,053 7 
1 0. 120 8 


与 符号 检验 的 其 他 使 用 情形 类 似 ， 根 据 实际 应 用 也 可 能 使 用 单 侧 检验 。 另 外 ， 当 样本 容量 变 大 时 ， 正 如 本 节 
先前 所 述 ， 二 项 分 布 的 正 态 分 布 近似 可 使 计算 变 得 很 容易 。 在 阳光 海岸 农场 匹配 样本 的 符号 检验 中 使 用 的 是 分 类 
型 的 偏好 数据 ， 匹 配 样本 的 符号 检验 也 可 以 使 用 数量 型 数据 。 如 果 匹 配 数据 二 者 之 差 不 服 从 正 态 分 布 且 是 偏 态 分 
布 时 ， 匹 配 样本 的 符号 检验 尤其 有 意义 ， 此 时 ， 正 的 差 值 记 为 加 号 ， 负 的 差 值 记 为 减 号 ,， 差 值 为 0 将 从 样本 中 易 
除 。 符 号 检验 的 计算 过 程 同 前 所 述 。 





方法 应 用 
衣 2. 10 个 人 参加 了 两 种 品牌 的 产品 的 口味 测试 。 样本 结 4. 最 大 的 50 只 股票 型 共同 基金 的 资产 净值 的 中 位 数 为 
果 显 示 , 7 个 人 偏好 品牌 A，2 个 人 偏好 品牌 B，1 个 150 亿美 元 (《 华 泵 街 日 报 》 2009 年 3 月 2 日 )。 
人 没有 陈述 偏好 。 在 显著 性 水 平 w=0.05 下 ， 对 两 个 由 最 大 的 50 只 债券 型 共同 基金 中 的 10 只 组 成 一 个 


品牌 偏好 的 差异 进行 显著 性 检验 。 你 的 结论 如 何 ? 样本 ， 其 数据 如 下 : 


2 债券 型 基金 资产 净值 
Fidelity Int Bond 61 
Franklin CA TF 117 
American Funds 224 
Vanguard Short Term 96 
PIMCO: Real Retumn 49 
T Rowe Price New Income 69 
Vanguard GNMA 150 
Oppenheimer [ntl Bond 66 
Dodge & Cox Income 145 
iShares: TIPS Bond 96 


在 显著 性 水 平 a=0.05 下 ,利用 中 位 数 能 否 得 出 结 


论 : 债券 型 共同 基金 的 资产 净值 小 于 股票 型 共同 
基金 ? 

a 检验 的 假设 是 什么 ? 

b. p- 值 是 多 少 ? 你 的 结论 如 何 ? 

6. 美国 家 庭 年 收入 的 中 位 数 是 56 200 美元 (The New 
York Times Almanac，2008 年 )。 下 面 是 居住 在 伊利 
诺 伊 州 芝加哥 的 50 个 家 庭 组 成 的 样本 数据 (单位: 
1 000 美元 )。 在 显著 性 水 平 a=0.05 下 ,利用 样本 
数据 能 否 得 出 结论 : 居住 在 芝加哥 的 家 庭 年 收入 的 
中 位 数 大 于 56 200 美元 。 你 的 结论 如 何 ? 


66. 3 60. 2 49.9 75, 4 13:7 
65.7 61.1 123. 8 hd 48.5 
74.0 146. 3 92.2 43.7 86.9 
3 64.2 56.2 48.9 109.6 


39.8 60.9 J9.7 42. 3 52.6 
60.9 43.5 61.7 54.7 95;2 
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70. 4 43, 8 57.8 Be 565 
$3 42.9 87: 5 43; 6 67.2 
48, 7 79; 1 61.9 53.4 56. 2 
57.0 49.6 109. 5 42. ] 74.6 


.Pew 研究 中 心 进行 的 一 项 调查 是 询问 成 年 人 ， 他 
们 理想 的 生活 地 区 是 节奏 较 快 还 是 较 慢 的 地 区 
( 《今日 美国 》，2009 年 2 月 13 日 )。 最 初 的 16 
名 回答 者 的 样本 中 ; 有 4 人 喜欢 生活 节奏 较 快 
的 地 区 ，11 人 喜欢 生活 节奏 较 慢 的 地 区 ，1 人 
无 所 谓 。 

a. 这 些 数据 能 否 得 出 结论 : 人们 对 生活 节奏 较 
快 和 较 慢 的 偏好 之 间 存 在 差异 ? 在 显著 性 水 
平 a=0.05 下 ， 你 的 结论 如 何 ? 

b. 考虑 16 人 的 样本 ， 喜 欢 生活 节奏 较 快 的 比例 
是 多 少 ? 喜欢 生活 节奏 较 慢 的 比例 是 多 少 ? 
你 对 该 研究 有 何 建议 ? 

10. 尼尔森 媒体 研究 表明 ，American ldol 和 Dancing with 
the Stars 是 黄金 时 间 收 视 率 最 高 的 两 个 电视 节目 
(《 今 日 美国 )，2008 年 4 月 14 日 )。 假 设 在 一 项 地 
方 电视 台 偏 好 的 调查 中 ， 要 求 750 个 被 调查 者 说 出 
他 们 喜欢 的 黄金 时 间 电 视 节 目 ， 其 中 330 个 人 选择 
了 American Idol，270 个 人 选择 了 Dancing with the 
Stars， 还 有 150 个 人 选择 了 其 他 的 电视 节目 。 在 显 
著 性 水 平 0.05 下 检验 假设 : 对 American ldol 和 
Dancing with the Stars 两 个 电视 节目 的 偏好 不 存在 
差异 。 你 的 结论 如 何 ? 


Co 


在 第 10 章 中 , 我们 介绍 了 匹配 样本 实验 设计 , ”个 实验 单位 中 的 每 一 个 提供 一 对 观测 值 ， 其 中 一 个 来 自 总 体 1， 
男 一 个 来 自 总 体 2。 该 实验 的 参数 检验 要 求 数量 型 数据 ， 而 且 假 定 配 对 观测 值 之 差 服从 正 态 分 布 ， 则 可 以 利用 :分 


布 对 两 个 总 体 均 值 之 差 进 行 推断 。 


威 尔 科 克 森 符号 秩 检 验 ( Wilcoxon signed-rank test) 是 分 析 匹 配 样本 实验 数据 的 非 参数 方法 。 检 验 使 用 数量 型 
数据 ， 但 不 要 求 假定 配对 观测 值 之 差 服 从 正 态 分 布 ， 只 需要 假定 配对 观测 值 之 差 具 有 对 称 的 分 布 ”。 即 使 两 个 总 
体 的 形态 相同 ， 关 注 点 是 确定 两 个 总 体 的 中 位 数 是 否 有 差异 。 用 下 面 的 例子 来 说 明 威 尔 科 克 森 符号 秩 检验 。 

考虑 某 个 制造 企业 正在 尝试 确定 两 种 生产 方法 在 完成 任务 时 间 上 是 否 存 在 差异 。 使 用 匹配 样本 设计 ， 随 机 选 
择 11 个 工人 的 2 次 完成 任务 时 间 ，1 次 使 用 方法 A，1 次 使 用 方法 B。 工 人 首先 使 用 的 生产 方法 是 随机 挑选 的 。 
两 种 方法 的 完成 任务 时 间 以 及 完成 时 间 的 差异 数据 如 表 18-6 所 示 。 正 的 差异 表明 方法 A 需要 更 多 的 时 间 ， 而 负 
的 差异 则 表明 方法 B 需要 更 多 的 时 间 。 这 些 数据 是 否 表 明 两 种 方法 在 完成 任务 时 间 上 存在 显著 差异 呢 ? 如 果 我 们 
假设 数据 的 差异 具有 对 称 分 布 ， 但 不 需要 正 态 分 布 ， 可 以 应 用 威 尔 科 克 森 符 号 秩 检验 。 


加 如果 二 者 之 差 的 总 体 分 布 是 偏 斜 分 布 ， 则 推荐 使 用 第 18. 1 节 介 绍 的 匹配 样本 的 符号 检验 。 
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表 18-6 完成 生产 任务 的 时 间 {分钟 ) 
方法 方法 


工人 A B 差 3 i B 差 
] 10. 2 9 可 0. 7 f 10.6 10.5 0.1 
2 9.6 98 -0.2 8 10. 0 10. 0 0.0 
.2 8.8 0.4 9 WA 10.6 0.6 
二 10.6 10. 1 0.5 10 10.7 10. 2 0.5 
5 9.9 10, 3 -0.4 11 10.6 9.9 0.8 
6 10. 2 03 0.9 


特别 地 ， 我们 用 威 尔 科 克 森 符号 秩 检 验 对 两 种 方法 完成 时 间 的 中 位 数 之 差 进 行 检验 S ， 假 设 如 下 : 
Hu :方法 A 的 中 位 数 - 方法 B 的 中 和 痊 数 =0 
H,: 方 法 A 的 中 位 数 -方法 B 的 中 位 数 关 0 

如 果 无 法 拒绝 Hu， 我 们 将 不 能 得 出 两 种 方法 的 完成 任务 时 间 的 中 位 数 存在 差异 。 但 是 ， 如 果 H, 被 拒绝 ， 则 
我 们 可 以 得 出 两 种 方法 在 完成 任务 时 间 的 中 位 数 上 存在 差异 。 我 们 在 显著 性 水 平 0. 05 下 进行 检验 。 

威 尔 科 克 森 符号 秩 检 验 的 第 一 步 剔 除 差异 为 0 的 工人 8， 然 后 计算 剩 下 10 个 工人 差 的 绝对 值 ， 如 表 18-7 中 
的 第 3 列 所 示 。 接 下 来 将 差 的 绝对 值 由 低 到 高 进行 排序 ， 如 表 18-7 中 的 第 4 列 所 示 。 工 人 7 的 最 小 的 绝对 差 0. 1 
的 秩 被 定 为 1， 工 人 2 的 第 二 小 的 绝对 差 0. 2 的 秩 被 定 为 2， 这 种 对 绝对 差 的 排 秩 一 直 将 继续 下 去 ， 直 到 工人 6 的 
最 大 绝对 差 0.9 的 秩 被 赋 为 10 为 止 。 工 人 3 和 工人 5 有 相同 的 绝对 差 0.4，0. 4 的 秩 被 定 为 平均 秩 s3.5; 与 此 同 
时 ， 工 人 4 和 工人 10 有 相同 绝对 差 0.5，0. 5 的 秩 被 定 为 平均 秩 5. 5。 

一 旦 确定 了 绝对 差 的 秩 ， 这 些 秩 将 被 赋予 工人 原始 差 的 符号 ,， 负 的 符号 秩 列 在 第 5 列 ， 正 的 符号 秩 列 在 第 6 
列 ( 见 表 18-7)。 例 如 ， 工 人 1 的 差 是 0.7 ( 见 第 2 列 ) ， 其 绝对 差 的 秩 为 8 ( 见 第 4 列 )， 因 此 ， 工 人 1 的 秩 在 第 
6 列 中 是 正 的 符号 秩 8。 工 人 2 的 差 为 -0.2， 其 绝对 差 的 秩 为 2， 因 此 ， 工 人 2 的 秩 在 第 5 列 是 负 的 符号 秩 为 -2。 
继续 这 个 过 程 直到 产生 如 表 18-7 所 示 的 负 的 和 正 的 符号 秩 为 止 。 


表 18-7 完成 生产 任务 时 间 的 绝对 差 的 秩 和 符号 秩 


ls sy 差 差 的 绝对 值 秩 人 
负 正 
1 0.7 0.7 8 8 
2 =0.2 0.2 2 En/ 
3 0.4 0.4 3.5 3.5 
4 0.5 0.5 5.5 要 
5 -0.4 0.4 汪汪 7 
6 0.9 0.9 10 10 
于 0.1 0 1 1 1 
8 0.0 0.0 
9 0.6 . 0.6 7 
10 0.5 0.5 全 
11 0.8 0.8 9 _9 
正 的 符号 秩 之 和 T* =49.5 


从 证 “表示 正 的 符号 秩 之 和 。 这 里 7 了 ”=49.5。 为 了 进行 威 尔 科 克 森 符号 秩 检验 ， 我 们 将 用 7 作为 检验 的 统计 
量 。 A 并 且 匹 配 数 据 对 的 个 数 为 大 于 或 等 于 10 时 ，7* 的 抽样 分 布 近似 于 如 下 的 正 态 
分 布 。 


昌 本 节 的 例子 所 用 的 观点 是 两 总 体 的 形态 相同 ， 如 果 它 们 仅仅 是 位 置 上 的 不 同 ， 就 总 体 中 位 数 而 言 ， 也 能 陈述 威 尔 科 克 森 符号 秩 检验 
的 假设 。 

名 ”剔除 差 为 0 的 情况 ， 分 析 继 续 在 差 不 为 0 的 容量 要 小 的 样本 中 进行 。 

四 ”相同 的 绝对 差 被 定 为 它们 秩 的 平均 值 。 
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GE n(n+1)(2xr+1) PD 20+1) -JR -9 8107 


图 18-3 是 检验 统计 量 7 een 
对 于 两 种 方法 完成 任务 时 间 的 中 位 数 相等 的 假设 ， 让 我 们 计算 其 双 侧 产值 。 由 于 检验 统计 量 7” =49.5 在 抽 


样 分 布 的 上 侧 ， 则 我 们 计算 上 侧 概率 已 (7 三 49.5)。 
由 于 正 的 符号 秩 之 和 7' 是 离散 型 的 ， 而 正 态 分 布 是 连 
续 型 ， 我 们 用 包含 连续 性 校正 因子 来 得 到 最 好 的 近似 ， 
因此 ，7* =49.5 的 离散 概率 近似 为 区 间 (49, 50) 上 
的 正 态 概率 。7* =49.5 的 概率 近似 为 


+ i 49 - 27.5 
Sy Ei Pp 
P(T > 49.5) P(z > S07 )= (Zz 主 没 ; 9) 


利用 标准 正 态 分 布 表 和 z=2.19, 我 们 看 到 双 侧 p- : 

值 为 2x(1 -0.9857) =0.0286。 由 于 p- 值 <0.05, 所 图 18-3 完成 任务 时 间 例 子 中 的 7 的 抽样 分 布 
以 我 们 拒绝 H,。， 故 得 两 种 方法 在 完成 任务 时 间 的 中 位 数 不 相 等 的 结论 。 由 于 7’ 在 抽样 分 布 的 上 侧 ， 我 们 得 到 方 
法 A 导致 较 长 的 完成 时 间 。 我 们 期 待 管理 部 门 认定 ， 方 法 B 是 较 快 或 较 好 的 生产 方法 。 

单 侧 威 尔 科 克 森 符号 秩 检验 也 是 可 能 的 。 例 如 ， 如 果 最 初 我 们 找到 统计 证 据 证 实 方法 A 完成 任务 时 间 的 中 位 

数 较 长 ， 方 法 B 完成 任务 时 间 的 中 位 数 较 短 ， 我 们 可 以 用 如 下 的 上 侧 假设 检验 : 
Ho: 方法 A 的 中 位 数 - 方法 了 的 中 位 数 三 0 
H,: 方 法 A 的 中 位 数 -方法 B 的 中 位 数 > 0 

拒绝 Hu 将 得 出 方法 A 完成 任务 时 间 的 中 位 数 较 长 ， 方 法 B 完成 任务 时 间 的 中 位 数 较 短 。 下 侧 假设 检验 也 是 
可 能 的 。 

最 后 一 点 ， 在 第 18. 1 节 中 我 们 演示 了 符号 检验 如 何 用 于 一 个 总 体 中 位 数 和 匹配 样本 的 假设 检验 ， 本 节 我 们 
说 明了 对 匹配 样本 使 用 威 尔 科 克 森 符号 秩 检验 。 然 而 ， 威 尔 科 克 森 符号 秩 检 验 也 可 以 用 于 一 个 总 体 中 位 数 9 的 非 
参数 检验 ， 该 检验 除了 要 求 总 体 分 布 对 称 之 外 对 分 布 无 其 他 假定 。 如 时 假定 合适 ， 威 尔 科 克 森 符号 秩 检 验 是 总 体 
中 位 数 的 首选 非 参数 检验 。 但 是 ， 如 果 总 体 是 偏 斜 分 布 ， 则 首选 第 18. 1 节 介绍 的 符号 检验 。 对 于 威 尔 科 克 森 符号 

秩 检验 ， 总 体 中 位 数 的 观测 值 和 假设 值 之 间 的 差 用 于 取代 配对 观测 值 之 间 的 差 ， 除 此 之 外 ， 计 算 过 程 如 本 节 所 
述 。 练 习 第 17 题 要 求 用 威 尔 科 克 森 符号 秩 检 验 对 一 个 对 称 总 体 的 中 位 数 进行 假设 检验 。 


注释 和 评论 


1. 一 个 意 体 中 位 数 的 威 尔 科 克 森 符号 秩 检 验 基 于 假定 总 体 分 布 对 称 。 由 于 这 个 假定 ， 总 体 中 位 数 等 于 总 体 均 
值 ， 因此， 威 尔 科 克 森 符 号 秩 检验 也 可 以 用 于 一 个 对 称 总 体 均 值 的 检验 。 






六 的 抽样 分 布 
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2 成 泵 科 克 森 符号 铁 检验 方法 可 以 用 来 计算 对 称 总 体 中 位 数 的 置信 区 间 。 然 而 ， 这 个 计算 相当 复杂 而 且 极 少 
用 手工 完成 。 利 用 如 Minitab 等 统计 软件 包 能 够 得 到 这 个 置信 区 间 。 





应 用 


在 下 面 涉 及 配对 之 差 的 练习 中 ， 我们 认为 ; 比较 


的 总 体 有 近似 相同 的 形态 ， 并 且 配 对 之 差 的 分 布 近似 
对 称 的 假设 合理 。 


让 


对 燃料 添加 剂 进 行 检验 ， 以 确定 它们 对 轿车 每 加 
仓 行 驶 里 程 数 的 影响 。 对 12 辆 车 的 每 辆 车 都 使 用 
两 种 燃料 添加 剂 进行 检验 ， 检 测 结果 如 下 。 在 显著 
性 水 平 w =0.05 下 ， 用 威 尔 科 克 森 符号 秩 检验 来 确 
定 ， 两 种 添加 剂 每 加 仑 行驶 里 程 数 的 中 位 数 之 间 
是 否 存在 显著 差异 。 





, 随机 抽取 了 11 个 机 场 ， 搜 集 了 2006 年 和 2007 年 


的 航班 正点 率 ， 数 据 如 下 表 所 示 ( Research and In- 
novative Technology Administration website，2008 年 8 
月 29 上 日 )。 在 显著 性 水 平 w =0.05 下 ， 检 验 两 年 航 


班 正点 沸 的 中 位 数 是 否 存 在 差异 。 你 的 结论 如 何 ? 


正点 率 
机 场 
2006 2007 
Boston Logan T7178 69. 69 
Chicago O7Hare 68. 23 65. 88 


18.3 曼 -- 惠 特 尼 一 威 尔 科 克 和 森 检验 


在 第 10 章 中 ,我 们 介绍 了 利用 两 个 独立 样本 进行 两 个 总 体 均值 之 差 的 假设 检验 方法 ， 其 中 一 个 样本 来 自 总 
体 1， 另 一 个 来 自 总 体 2。 参 数 检 验 要 求 数量 型 数据 ， 且 假定 总 体 都 服从 正 态 分 布 。 当 总 体 标 准 差 wm 和 os; 未知 
时 ， 用 样本 标准 差 s, 和 s, 作为 a, 和 的 估计 量 ， 并 且 利 用 : 分 布 对 两 个 总 体 均 值 之 差 进行 推断 。 

在 本 节 我 们 介绍 一 种 基于 两 个 独立 样本 的 两 总 体 之 间 差 异 的 非 参 数 方法 。 非 参数 方法 的 优点 是 它 既 可 以 使 用 
顺序 型 数据 ?也 可 以 使 用 数量 型 数据 ， 而 且 不 需要 假定 总 体 服 从 正 态 分 布 。 检 验 的 形式 由 曼 、 惠 特 尼 和 威 尔 科 克 
森 联合 提出 ， 因 而 它 被 称 为 曼 - 惠 特 尼 检验 和 威 尔 科 克 森 秩 和 检验 。 这 些 检验 是 等 价 的 ， 并 且 提 供 同 样 的 绪论 。 
在 本 节 我 们 将 这 个 非 参数 检验 称 为 曼 - 惠 特 尼 - 威 尔 科 克 森 检验 〈Mann-Whitney- Wileoxon test，MWW ) 。 


( 续 ) 


Ee 正点 率 

2006 2007 
Chicago Midway 77.98 78. 40 
Denver 78,71 75. 78 
Fort Lauderdale 77. 9 73. 45 
Houston 77. 67 78. 68 
Los Angeles 76. 67 76. 38 
Miami 76. 29 70. 98 
New York (JFK) 60. 39 62. 84 
Orange 79. 91 76, 49 
Washington (Dulles) 75; 55 72, 42 


16. 2008 年 8 月 11 ~17 上 日， 在 北 卡 罗 来 纳 州 格林 斯 博 


罗 的 Sedgefield 乡村 俱乐部 举行 了 美国 职业 高 尔 夫 
协会 的 球员 和 锦标赛。 下 面 是 随机 选取 的 11 位 高 尔 夫 
球员 第 一 轮 和 第 二 轮 的 杆 数 。 在 显著 性 水 平 a = 
0.05 下 ， 确 定 高 尔 夫 球 员 在 锦标 赛 中 第 一 轮 和 第 二 
轮 杆 数 的 中 位 数 是 否 存 在 显著 差异 ， 你 的 结论 如 何 ? 


高 尔 夫 球 员 第 一 轮 第 二 轮 
Marvin Laird 63 74 
Jimmy Walker 70 73 
Kevin Chappell 72 70 
Kevin Duke 65 71 
Andrew Buckle 70 74 
Paul Claxton 69 73 
Larry Mize 72 3 
Chris Riley 68 70 
Bubba Watson 70 08 
Carlos Franco 71 71 
Richard Johnson 2 69 


台 ”顺序 型 数据 是 可 以 被 排序 的 分 类 型 数据 ， 顺 序 尺度 已 在 第 1 章 的 第 1.2 节 中 详细 讨论 。 
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我 们 以 陈述 原 假 设 和 备 择 假设 的 最 一 般 形 式 开始 MWW 检验 ,假设 如 下 : 
H,: 两 个 总 笨 相 同 
H, :两 个 总 体 不 相间 
两 个 总 体 不 相同 的 备 择 假 设 需 要 做 一 些 说 明 。 总 体 1 总 体 2 
如 何 Hu 被 拒绝 ， 我们 用 检验 得 出 结论 : 总 体 不 相同 ， ~ 
并 且 总 体 1 与 总 体 2 相 比 ， 倾向 于 提供 或 者 较 小 或 者 
较 大 的 数值 。 图 18-4 是 总 体 1 比 总 体 2 提供 较 小 数 
值 的 情形 。 注 意 并 非 所 有 来 自 总 体 1 的 数值 都 比 来 目 
总 体 2 的 小 。 然 而 ， 图形 准确 地 表明 H, 是 正确 的 ， 
即 两 个 总 体 不 相同 ， 而 且 总 体 1 比 总 体 2 提供 较 小 的 数值 。 在 双 侧 检验 中 ， 我 们 考虑 备 择 假设 为 提供 或 者 较 小 或 者 较 
大 数值 的 总 体 ; 在 单 侧 检验 可 能 提出 的 备 择 假 设 是 ， 总 体 1 与 总 体 2 相 比 ， 提 供 较 小 或 者 较 大 数值 。 
首先 我 们 通过 对 小 样本 秩 - 顺序 数据 来 说 明 MWW 检验 。 这 里 将 使 你 了 解 如 何 计 算 秩 和 统计 量 ， 以 及 该 统计 
量 如 何 用 于 确定 是 否 拒 绝 两 个 总 体 相 等 的 原 假 设 。 在 本 节 的 稍 后 部 分 ,我 们 将 介绍 基于 正 态 分 布 的 大 样本 近似 ， 
它 将 简化 MWW 检验 所 需 的 计算 量 。 
我 们 考虑 有 20 个 电影 银 项 放映 厅 的 Showtime 电影 院 员工 的 工作 表现 。 在 回顾 员工 的 表现 后 ， 影 院 经 理 在 影 
院 的 年 终 报 告 中 给 所 有 35 名 员工 从 最 好 (等 级 1) 到 最 差 (等 级 35) 排序 。 了 解 到 兼职 员工 主要 是 大 学 生 和 高 
中 生 ， 地 区 经 理想 了 解 在 工作 表现 方面 大 学 生 与 高 中 生 相 比 是 否 存 在 显著 差异 。 对 于 在 影院 工作 的 大 学 生 总 体 和 
高 中 生 总 体 ， 假 设 陈述 如 下 : 





图 18-4 ”两 个 总 体 不 相同 上 且 总 体 ! 倾向 于 提供 较 小 数值 的 情形 


Hu :天 学 生 总 体 和 高 中 生 总 体 的 工作 表现 相同 
H, ;大学生 总 体 和 高 中 生 总 体 的 工作 表现 不 同 
我 们 在 显著 性 水 平 0. 05 下 进行 检验 。 
我 们 在 Showtime 电影 院 工作 的 学 生 中 挑选 了 4 名 大 学 生 组 成 一 个 表 18-8 在 Showtime 电影 院 工作 的 大 学 生 
随机 样本 ， 而 另 一 个 随机 样本 由 5 名 高 中 生 组 成 。 影 院 经 理 给 所 有 35 样本 和 高 中 生 样 本 的 表现 排序 
名 员工 的 综合 表现 排序 中 ， 也 有 样本 中 每 一 名 员工 的 记录 ， 如 表 18-8 
所 示 。 选 取 的 第 一 位 大 学 生 在 经 理 的 年 终 表 现 报 告 中 排 在 第 15 位 ， 
选取 的 第 二 位 大 学 生 在 经 理 的 年 终 表现 报告 中 排 在 第 3 位 ， 等 等 。 
MWW 过 程 的 下 一 步 是 对 混合 的 样本 数据 由 低 到 高 进行 排序 。 由 
于 总 共有 9 名 学 生 ,， 我 们 将 表 18-8 中 的 表现 排名 数据 "从 1 到 9 排 
序 ， 大 学 生 2 的 最 小 值 3 得 到 的 秩 为 1， 大 学 生 4 的 第 二 小 值 8 得 到 的 秩 为 2， 高 中 生 3 的 最 大 值 32 得 到 的 秩 为 
9。9 个 学 生 的 混合 样本 排 秩 结果 列 在 表 18-9 中 。 


表 18-9 在 Showtime 电影 院 的 9 名 学 生 混合 样本 的 排 秩 
生 经 理 的 排名 高 中 生 经 理 的 排名 
15 I 18 
3 20 
23 32 
8 9 
25 





熙 | 一 皮 | 织 
nh 请 二 to 
mm en 举 


加 
秩 和 31 
接 下 来 是 分 别 求 出 每 一 个 样本 的 秩 和 ， 如 表 18-9 所 示 。MWW 过 程 中 可 以 使 用 任何 一 个 样本 的 秩 和 。 然 而 ， 


在 我 们 的 MWW 检验 的 应 用 中 ， 我 们 遵循 实践 中 的 和 常用 方式 使 用 第 一 个 样本 ， 即 4 名 大 学 生 样 本 。MWW 检验 的 
第 一 个 样本 的 秩 和 用 统计 量 下 表示 ， 因 此 ， 由 表 18-9， 我 们 得 到 到 =4+1+7+2=14。 


日 、 在 本 例 中 的 数据 说 明 MWW 检验 如 何 用 于 顺序 〈 秩 - 顺序) 数据 ， 练 习 第 25 题 给 出 了 利用 这 类 数据 的 男 一 个 应 用 。 
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让 我 们 来 考虑 ， 为 什么 秩 和 能 帮助 我 们 在 两 个 假设 ， 即 H,: 两 个 总 体 相同 ，H,: 两 个 总 体 不 相同 之 闻 作 出 选 
择 。 令 C 表示 大 学 生 ，H 表示 高 中 生 ， 假设 9 名 学 生 的 秩 有 下 面 顺序 : 4 名 大 学 生 有 4 个 最 低 秩 。 
秩 1 ER 汪 
举 此 EC € i MM 
注意 ， 这 个 排列 或 顺序 分 开 了 两 个 样本 ， 所 有 的 大 学 生 都 比 高 中 生 有 较 低 的 秩 。 有 很 强 的 迹象 表明 两 个 总 体 
不 相同 ， 在 这 种 情况 下 ， 大 学 生 的 秩 和 名 =1 +2+3+4=10。 
现在 我 们 考虑 4 名 大 学 生 有 4 个 最 高 秩 。 
秩 ] 3 
学 本 HY HR. HM a 小 te 
注意 ， 这 个 排列 或 顺序 也 分 开 了 两 个 样本 ， 但 是 此 时 所 有 的 大 学 生 都 比 高 中 生 有 较 高 的 秩 。 它 也 有 很 强 的 迹 
象 表 明 两 个 总 体 不 相同 ， 在 这 种 情况 下 ， 大 学 生 的 秩 和 下 =6 +7+8+9=30。 于 是 我 们 看 到 ,4 名 大 学 生 的 秩 和 
必定 介 于 10 ~30。 歼 的 值 接近 于 10 就 意味 着 大 学 生 比 高 中 生得 到 较 低 的 秩 ; 而 下 的 值 接 近 30 则 意味 着 大 学 生 比 
高 中 生得 到 较 高 的 秩 。 这 两 个 极端 值 表明 两 个 总 体 不 相同 。 然 而 ， 如 果 两 个 总 体 相同 ， 我们 期望 C 和 的 顺序 交 
错 ， 因 此 ， 秩 和 勾 将 接近 于 两 个 极端 值 的 平均 值 ， 即 接近 (10 +30) /2 =20。 
假定 两 个 总 体 相 同 ， 我 们 用 计算 机 程序 计算 9 名 学 生 的 所 有 可 能 的 顺序 。 对 每 一 个 顺序 ， 我 们 计算 大 学 生 的 
秩 和 。 图 18-5 是 下 的 精确 抽样 分 布 的 概率 分 布 图形 ， 表 18-10 中 给 出 多 的 可 能 值 以 及 对 应 的 精确 概率 。 虽 然 我 
们 不 要 求 你 能 得 到 这 个 精确 的 抽样 分 布 ， 但 我 们 将 用 它 检验 两 个 总 体 是 相同 的 假设 。 
如 同 我 们 用 其 他 抽样 分 布 一 样 ， 让 我 们 用 表 18-5 中 的 丈 的 抽样 分 布 计算 检 验 的 产值 ， 表 18-9 显示 4 名 大 学 
生 的 秩 和 为 克 =14， 由 于 这 个 丈 值 位 于 抽样 分 布 的 下 侧 ， 我 们 先 计 算 下 侧 概率 已 歼 和 14) ， 因 此 ， 我 们 有 
P(W<14)= P(10) + P(11) + P(12) + P(13) + P(14) 
= 0.0079 +0.0079 +0.0159 +0.0238 +'0.0397 = 0.0952 


0.10 


表 18-10 大 学 生 样 本 秩 和 的 精确 抽样 分 布 的 概率 


属 0.05 


1 25 30 
大 学 生 的 所 有 可 能 的 秩 和 
图 18-5 大 学 生 样 本 秩 和 的 精确 抽样 分 布 





双 侧 产值 =2 x0.095 2 =0. 1904， 在 显著 性 水 平 w =0.05 下 ， 由 于 p- 值 >0.05， 因 此 MWW 检验 的 结论 是 ， 我 们 
不 能 拒绝 大 学 生 总 体 与 高 中 生 总 体 是 相同 的 原 假设 ， 即 4 名 大 学 生 样 本 和 5 名 高 中 生 样 本 不 能 提供 两 个 总 体 存在 差异 
的 统计 证 据 。 这 是 对 判断 提出 怀疑 的 理想 时 刻 ， 在 得 出 最 终结 论 之 前 需要 考虑 用 大 样本 做 进一步 的 研究 。 

MWW 检验 的 许多 应 用 涉及 较 大 的 样本 而 非 前 面 出 现 的 例子 。 对 于 这 些 应 用 ， 我们 使 用 基于 正 态 分 布 的 下 抽 
样 分 布 的 一 个 大 样本 近似 。 事 实 上 我 们 注意 到 ， 对 于 如 些 少 的 样本 容量 4 和 535， 图 18-5 中 丈 的 抽样 分 布 显示 出 非 
常 好 的 正 态 分 布 近似 。 我 们 将 利用 前 面 例子 使 用 的 混合 样本 秩 的 方法 ， 但 我 们 用 正 态 分 布 近似 而 非 WW 的 精确 抽样 
分 布 来 计算 P- 值 ， 并 得 出 结论 。 
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我 们 通过 考察 第 三 国民 银行 的 情况 来 说 明 应 用 正 态 分 布 近似 进行 MWW 检验 。 银 行经 理 监控 两 个 分 行 的 支票 
账户 余额 ， 并 想 确定 两 个 分 行 账户 余额 的 总 体 是 否 相 同 。 表 18-11 第 三 国民 银行 两 个 分 行 的 账户 余额 
银行 经 理 抽 取 了 两 个 独立 的 账户 余额 样本 ， 其 中 分 行 1 的 "| 分 行 2 
样本 容量 为 =12， 分 行 2 的 样本 容量 为 n, =10， 数据 如 账户 余额 (美元 ) 账户 余额 (美元 ) 


表 18-11 所 示 。 I 1 095 1 885 

同 前 面 的 做 法 一 样 ，MWW 检验 的 第 一 步 是 将 混合 数 , oh 和 次 
据 由 小 到 大 进行 排序 ? 。 对 表 18-11 中 的 22 个 混合 观测 值 ， 2 es Se 
我 们 发 现 最 小 值 (分 行 2 的 账户 6) 为 750 美元 ,我们 把 5 925 5 800 
它 的 秩 定 为 1; 第 二 小 值 (分 行 2 的 账户 5) 为 800 美元 ， 。 EE : 
我 们 把 它 的 秩 定 为 2， 第 三 小 值 (分 行 1 的 账户 7) 为 805 i > ee 
美元 ， 我 们 把 它 的 秩 定 为 3， 以 此 类 推 。 在 对 混合 数据 进 9 875 9 1050 
行 排 秩 时 ， 我 们 可 能 会 发 现 有 两 个 或 多 个 数值 是 相同 的 ， 2 10 935 
这 种 情形 下 ， 将 相等 数值 在 混合 数据 集中 所 处 位 置 的 平均 加 ds 


秩 赋予 它们 。 例 如 ， 分 行 1 的 账户 6 和 分 行 2 的 账户 4， 
它们 的 余额 都 是 950 美元 。 当 混合 数据 从 小 到 大 进行 排序 时 ， 两 个 950 美元 在 混合 数据 集中 的 位 置 是 12 和 13， 因 
此 ， 这 两 个 账户 被 定 为 平均 秩 (12 +13)/2 =12.5， 表 18-12 是 混合 样本 的 秩 。 


表 18-12 混合 账户 余额 样本 的 秩 


分 行 账户 余额 秩 分 行 账户 余额 秩 
2 6 750 1 I 6 950 12.5 
2 5 800 2 2 4 950 12.5 
1 7 805 3 I 2 955 14 
2 2 850 4 1 12 975 5 
2 7 865 5 2 8 1 000 16 
1 9 875 6 1 11 1 025 17 
2 1 885 7 2 9 1050 18 
2 3 915 8 I 10 1 055 19 
1 5 925 9 1 1 1 095 20 
2 10 935 10 I 4 1 195 21 
I 8 945 11 I 3 1 200 22 


现在 我 们 回 到 两 个 单独 的 样本 ,并 从 表 18-12 中 得 出 每 一 个 账户 余额 的 秩 。 这 些 结果 列 在 表 18-13 中 。 下 一 
步 是 求 出 每 个 样本 的 秩 和 : 样本 1 为 169.5 和 样本 2 为 83.5。 正 如 前 文 所 述 ， 我 们 遵循 使 用 样本 1 的 秩 和 作为 检 
验 统计 量 下 的 方法 ， 因 此 ， 我 们 得 到 WW=169. 5。 当 两 个 样本 的 容量 都 大 于 或 等 于 7 时 ， 亚 的 抽样 分 布 可 以 用 正 
态 分 布 近似 。 在 假定 原 假设 为 真 和 总 体 相 同 的 条 件 下 ， 检 验 统计 量 下 的 抽样 分 布 如 下 所 述 。 


表 18-13 来 自 第 三 国民 银行 两 个 样本 数据 的 混合 秩 


分 行 1 分 行 2 
账户 余额 (美元) 秩 账户 余额 (美元 ) 秩 
I 1 095 20 1 885 7 
2 955 14 2 850 4 
3 1 200 22 3 915 8 
4 1 195 21 4 950 了 2. 5 
5 925 9 5 800 2 
6 950 12.5 6 750 ] 
7 805 3 7 865 5 
8 945 11 8 1 000 16 
9 875 6 9 1 050 18 
10 1 055 19 10 935 10 
11 1 025 17 秩 和 83.5 
12 975 15 
秩 刹 | 169. 5 


名 ”用 手工 对 混合 样本 排 秩 需 要 一 些 时 间 ， 计算 机 程序 可 以 用 于 排 秩 ， 婚 恢 速 又 有 效率 。 
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在 样本 容量 n, =12 和 n=10 的 情况 下 ， 利 用 式 (18-5) 和 式 (18-6) ， 得 到 搬 样 分 布 的 均值 和 标准 半 为 
Wr = WD x (WR nn #1) = 1/2 x12x(12+10+1) = 138 
= ViIZI2 xn Xn x(n tn +1) = VI/ XIZx10x (2 +10+1) = 15.1658 
图 18-6 Pi 下 的 抽样 分 布 所 使 用 的 正 态 分 布 。 
我 们 继续 进行 MWW 检验 ， 并 在 显著 性 水 平 0.05 下 得 出 结论 。 由 于 统计 量 下 是 离散 型 的 ， 正太 分布 是 连续 


型 的 ,我们 对 正 态 分 布 近似 再 次 使 用 连续 性 校正 因子 。 
由 于 下 =169;5 在 抽样 分 布 的 上 侧 ， 我 们 用 如 下 的 产值 
计算 : 
P( 防 点 16955) 2 Pp(2 Ss)= PC > 2.04) 
使 用 标准 正 态 分 布 表 和 z = 2.04， 双 侧 p- 值 为 本 
2x(1-0.9793) =0.0414s 由 于 p- 值 <0.05， 所 以 拒绝 一 < 一 一 -二 一 一 一 yp Wy 
H,， 并 得 出 两 个 分 行 的 账户 余额 总 体 不 相同 。 检 验 统计 i : 
量 WW 的 上 侧 值 表明 分 行 1 的 账户 余额 总 体 有 较 大 的 倾向 。 图 18-6， 弟 三 国 罗 银 行 例 于 中 WY 的 抽样 分 布 
最 后 ，MWW 检验 的 一 些 应 用 使 其 适合 于 假定 两 个 总 体 具有 相同 的 形态 ， 即 使 总 体 不 同 ， 也 仅仅 是 分 布 位 
置 上 的 移动 。 如 果 黄 个 总 体 具有 相同 的 形态 ， 假 设 检验 可 以 根据 两 个 总 体 中 位 数 之 差 来 陈述 。 中 位 数 之 间 的 任何 
差异 可 以 理解 为 一 个 总 体 与 男 一 个 总 体 相 比 的 位 置 移动 ， 在 这 种 情况 下 ， 关 于 两 个 总 体 中 位 数 的 MWW 检验 的 三 
种 形式 如 下 : 





Ow 二 15, 165.8 





有 双 岗 检验 下 侧 检验 上 侧 检验 
H,: ;中 位 数 ， 一 中 位 数 ， = HR :中 位 数 ， 二 中 位 数 ， 三 0 H, :中 位 数 ， =- 中 位 数 ， <0 
种 从 数 ， 一 则 位 各 赤 0 HL :让 位 数 | - 中 入 狼 ， OH 下 和风 “市 必 数 ; > 0 





附录 18A 中 描述 了 MWW 检验 的 Minitab 程序 ，Minitab 假定 两 个 总 体 具 有 相同 的 形态 。 因 此 ，Minitab 描述 了 
关于 两 个 总 体 中 位 数 的 检验 结果 。 如 果 你 认为 假定 “相同 形态 ” 涉 合适，Minitab 的 结果 仍然 可 以 应 用 ， 但 你 需 
要 解释 检验 两 个 总 体 相同 的 原 假设 的 检验 结果 。 





应 用 验 ， 来 确定 两 种 添加 剂 对 汽油 行驶 里 程 的 影响 是 


女 18. 对 两 种 燃料 添加 剂 进 行 检 验 以 确定 它们 对 汽油 行 百 存在 显著 差异 。 
驳 里 程 的 影响 。 对 于 添加 剂 1， 我 们 检测 了 7 辆 汽 
车 ; 对 于 添加 剂 2， 我 们 检验 了 9 辆 汽车 。 下 面 的 es i 
数据 是 使 用 两 种 添加 剂 所 得 到 的 每 加 仑 汽油 行驶 全 间 省 
里 程 数 。 在 显著 性 水 平 wu =0.05 下 ， 用 MWW 检 :16.7 21.0 


龟 如果 能 得 出 两 个 总 体 具 有 相同 的 形态 的 假定 ，MWW 检验 就 变 成 了 关于 两 个 总 体 中 位 数 之 差 的 检验 。 
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( 续 ) ( 续 ) 
18, 2 ; 22. 1 公司 市 得 率 公司 市 盈 率 
18.6 18.7 Heiwa 18 Schlumberger 24 
17.5 19.8 NCP Japan 125 Oracle Systems 43 
20.7 Suzuki Motor 31 Gap 22 
20. 2 Fuji Bank 213 || Winn-Dixie 14 
. Sumitomo Chemical 64 Ingersoll- Rand 21 
20. 拥有 同等 学 力 的 男性 和 女性 的 收入 差异 正在 缩小 ， Seibu Railway 666 “|| Americaii Eléctrio Power 14 
但 是 收入 并 没有 达到 接近 的 程度 。 具 有 学 士 学 位 Shiseido 33 “|| Hercules 21 
* 二 Toho G 68 Ti Mirror 38 
的 7 名 男性 和 7 名 女性 收入 数据 如 下 表 所 示 ( 单 fT Prt 有 
位 ， 1 000 美元 )。 Northern States Power 14 


男性 35:6 80;5 S550.2 6.2 43.2 5490 :5603 2 二 > a a 
的 要 注 灶 在 达 六 其 的 0 塞 商 场 和 在 
ee ee 圣安东尼奥 的 13 家 商场 中 的 标价 如 下 。 在 显著 性 


a. 男性 收入 的 中 位 数 是 多 少 ? 女性 呢 ? 水 平 0.05 下 ,检验 该 微波 炉 的 价格 在 两 个 城市 之 
b. 在 显著 性 水 平 a=0.05 下 ， 对 总 体 分 布 相同 的 间 是 否 相 同 (单位 : 美元 ) 。 
假设 进行 检验 ， 你 的 结论 如 何 ? 人 
22.《 彭 博 商 业 周 刊 》 每 年 公布 有 关 全 世界 最 大 的 1 7 
000 家 公司 的 统计 数据 。 一 家 公司 的 市 盈 率 (P/ 489 451 
E) 是 这 家 公司 股票 的 当前 价格 除 以 最 近 12 个 月 05 435 
的 每 股 收益 。 下 表 中 列 出 了 10 家 日本 公司 和 2 家 全 人 
美国 公司 的 市 肥 率 。 美 国 公司 和 日 本 公司 市 盈 率 449 445 
之 间 是 否 存 在 显著 差异 ? 使 用 MWW 检验 和 a = 436 429 
0:01 来 支持 你 的 结论 。 人 a 


405 422 





日 本 
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在 本 节 我 们 将 假设 检验 的 非 参 数 方法 扩展 到 三 个 或 三 个 以 上 总 体 的 情形 。 当 我 们 使 用 数量 型 数据 并 假定 总 体 
服从 标准 差 相 等 的 正 态 分 布 时 ， 我们 考虑 第 13 章 中 的 参数 检验 。 以 每 个 总 体 的 独立 随机 样本 为 依据 ,我 们 用 F 
分 布 来 检验 各 总 体 之 间 的 差异 。 

非 参 数 的 克 鲁 斯 卡尔 = 沃 利 斯 检验 (Kruskal- Wallis test) 的 依据 是 对 来 自 上 个 总 体 的 大 个 独立 随机 样本 的 分 
析 。 这 个 方法 既 可 使 用 顺序 型 数据 也 可 使 用 数量 型 数据 ， 并 且 不 需要 假定 总 体 服从 正 态 分 布 。 原 假设 和 备 择 假设 
的 一 般 形式 如 下 : 

H: 所 有 总 体 是 相同 的 
H。: 并 非 所 有 总 体 都 是 相同 的 

如 果 Ho 被 拒绝 ,我们 将 得 出 总 体 之 间 存 在 差异 ,与 其 他 总 体 相 比 较 ， 一 个 或 多 个 总 体 提 供 较 小 或 较 大 的 数 
值 。 我 们 用 下 面 的 例子 来 阐述 克 鲁 斯 卡尔 - 沃 利 斯 检验 。 

威廉 姆 斯 制造 公司 从 3 所 不 同 的 大 学 招聘 管理 工作 人 员 。 最 近 该 公司 的 人 事主 管 开 始 审核 管理 人 员 的 年 度 业 
绩 报告 ， 试 图 确定 毕业 于 这 3 所 大 学 的 管理 人 员 的 业绩 评分 是 否 存在 差异 。 大 学 A 毕业 的 7 名 管理 人 员 ,， 大 学 B 
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毕业 的 6 名 管理 人 员 ， 大 学 C 毕业 的 7 管理 人 员 的 三 个 独立 样本 的 业绩 分 数据 如 表 18-14 所 示 。 每 名 管理 人 员 的 

总 体 业 绩 分 在 0 ~ 100， 其 中 100 是 最 高 的 业绩 分 。 假 设 我 们 想 检验 , 3 。 表 18-14 20 名 威廉 姆 斯 员工 的 业绩 分 

个 管理 人 员 总 体 的 业绩 分 是 否 存在 差异 ,我 们 使 用 的 显著 性 水 平 大 学 A 大 学 吕 大 学 C 
60 


为 :0. 05 。 25 50 
克 重 斯 卡尔 - 沃 利 斯 检验 的 第 1 步 是 对 混合 样本 数据 从 低 到 高 进行 上 = 70 
排序 ， 利 用 表 18-14 中 的 20 个 观测 值 ， 大 学 B 的 第 4 名 管理 人 员 的 最 低 > 
业绩 分 15 得 到 的 秩 为 1， 大 学 A 的 第 5 名 管理 人 员 的 最 高 业绩 分 95 得 95 40 90 
到 的 秩 为 20， 表 18-15 显示 了 业绩 分 数 和 它们 相应 的 秩 。 注 章 ， 并列 的 90 35 70 
业绩 分 后 ， 70 -180 和 99, 我 们 定义 其 秩 为 平均 秩 ， 表 翁 - 坷 还 绪 唐 了 3 2 D352 T6313 _ 
个 样本 中 每 一 个 的 秩 和 。 
| 表 18-15 3 个 样本 的 混合 秩 
-二 才学 A 秩 大 学 C 秩 
Ai 3 60 9 50 7 
70 12 2 70 12 
60 9 4 60 9 
85 WY 1 80 L523 
95 20 6 90 18.5 
90 _ 18.5 5 70 12 
80 15.5 秩 和 27 75 14 
秩 和 站 秩 和 88 





克 鲁 斯 卡尔 - 沃 利 斯 检验 的 统计 量 利用 3 个 样本 的 秩 和 ， 其 计算 公式 如 下 。 


he 
wp 


A 
py CO 
Wy 











| 克 重 斯 卡尔 和 沃 利 斯 已 经 证 明 ， 在 各 个 总 体 相 同 的 原 假设 下 ，HH 的 抽样 分 布 可 以 近似 服从 自由 度 为 k -1 的 x 
分 布 。 如 果 上 个 总 体 的 每 个 样本 的 容量 都 大 于 或 等 于 5， 则 这 种 近似 是 可 以 被 普遍 接受 的 。 如 果 这 个 统计 量 五 的 
值 非常 大 ， 则 总 体 相同 的 原 假 设 将 被 拒绝 。 因 此 ， 克 和 鲁 斯 卡尔 - 沃 利 斯 检验 总 是 表示 成 一 个 上 侧 检 验 。 对 
表 18-15 中 的 样本 数据 ， 检 验 统计 量 的 计算 结果 如 下 
Fe | 人 PR 二 0 n= 

并 且 
a 证 
利用 每 一 个 样本 的 秩 和 ， 克 和 鲁 斯 卡尔 和 沃 利 斯 检验 的 统计 量 为 

12 2 I 二 
H= [a | -3Cnr + = | 3 x (20 +1) = 8.92 
我 们 现在 利用 x 分 布 表 ( 附 录 B 中 的 表 3) 来 确定 检验 的 p- 值 。 根 据 自由 度 为 上 -1=3 -1 =2， 我 们 看 到 

半 =7.378 对 应 的 六 分 布 的 上 侧面 积 为 0.025， 而 x =9.21 对 应 的 x 分 布 的 上 侧面 积 为 0.01。 由 于 五 =8.92 介 于 
7.378 和 9.21 之 间 ， 因 此 ， 我 们 可 以 得 出 x 分 布 上 侧面 积 在 0.01 和 0:025 之 间 。 由 于 这 是 上 侧 检验 ， 我们 可 以 
得 到 p- 值 在 0.01 和 0.025 之 间 。 利 用 Minitab 或 Excel 得 出 x =8.92 的 精确 p- 值 为 0.0116。 由 于 p- 值 所 &=0. 05， 
我 们 拒绝 HH,、 并 得 出 3 个 总 体 不 全 相同 的 结论 。 毕 业 于 3 所 大 学 的 管理 人 员 业 绩 分 的 3 个 总 体 是 不 同 的 ， 并 且 差 
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异 显著 地 依赖 于 大 学 。 由 于 毕业 于 大 学 B 的 管理 大 员 的 样本 秩 和 相对 较 低 ， 所 以 公司 有 理由 减少 从 大 学 B 招聘 员 
工 , 或 者 在 作出 录用 决定 之 前 至 少 需要 对 毕业 于 大 学 B 的 毕业 生 进 行 更 加 深入 的 考核 。 
最 后 ， 我 们 注意 到 在 克 和 鲁 斯 卡尔 - 沃 利 斯 检验 的 一 些 应 用 中 ， 作 出 总 体 有 相同 的 形态 的 假定 可 能 是 合适 的 ， 
如 果 有 所 不 同 ， 也 仅仅 是 一 个 或 多 个 总 体 在 位 置 上 的 移动 。 如 果 假 定 丰 个 总 体 具有 相同 的 形态 ， 假 设 检验 可 以 根 
据 总 体 中 位 数 来 表述 。 因此 ， 克 和 鲁 斯 卡尔 - 沃 利 斯 检 验 的 假设 可 写成 如 下 形式 : 
Hs: 中 位 数 : = 中 位 数 ，= … = 中 位 数 ， 
H, :并 非 所 有 的 中 位 数 都 相等 


注释 和 评论 


1. 本 节 例 子 中 使 用 员工 业绩 分 的 数量 型 数据 进行 克 和 鲁 斯 卡尔 - 沃 利 斯 检验 。 如 果 20 名 员工 的 业绩 分 数据 是 
顺序 等 级 ， 这 个 检验 也 能 使 用 。 在 这 种 情况 下 ， 可 以 直接 应 用 原始 数据 ， 将 数量 型 数据 转变 为 秩 -顺序 数 
据 这 一 步 又 就 没有 必要 了 ， 练 习 第 30 题 说 明了 此 情形 。 

2. 附录 18 中 描述 了 克 重 斯 卡尔 - 沃 利 斯 检验 的 Minitab 步骤 。Minitab 假定 总 体 具有 相同 的 形态 ， 因 此 ， 
Minitab 描述 的 克 和 鲁 斯 卡尔 - 沃 利 斯 检验 可 作为 总 体 中 位 数 之 间 差 异 的 检验 。 如 果 你 认为 假定 “相同 形态 ” 
不 合适 ， 称 仍然 可 以 应 用 Minitab， 但 你 需要 解释 检验 所 有 总 体 相同 的 原 假 设 的 检验 结果 。 





六 26. 由 15 名 消费 者 组 成 的 一 个 样本 对 下 面 三 种 不 同 产 一 一 
品 给 出 了 以 下 评分 。5 名 消费 者 被 随机 指定 去 检验 Pe pe a 
和 评价 一 种 产品 。 利 用 克 便 斯 卡尔 =- 沃 利 斯 检验 427 530 268 
和 显著 性 水 平 @ =0.05 来 确定 这 三 种 产品 的 评分 之 
间 是 否 存 在 显著 差异 。 30. 一 家 大 公司 将 其 许多 第 一 流 的 经 理 送 去 管理 技能 
培训 班 学 习 。 有 四 家 不 同 的 管理 发 展 中 心 提供 这 种 
OO 培训 班 。 人 力 资源 总 监 息 要 了 解 这 四 家 中 心 所 提供 
EEE/ 的 培训 质量 是 否 不 同 。 从 每 一 家 培训 中 心中 随机 机 
于 二 取 5 名 员工 组 成 样本 ， 然 后 将 这 些 员 工 按 管理 技能 
了 进行 排 秩 。 秩 1 表明 员工 有 最 好 的 管理 技能 ， 排 秩 
— 如 下 所 示 。 利 用 @=0.05 检验 这 四 家 中 心 所 提供 的 
六 28. 每 周 进 行 三 天 、 每 次 40 分 钟 的 下 列 运动 之 一 ， 可 培训 是 否 存 在 显著 不 同 。 
以 导致 体重 下 降 。 下 面 的 样本 数据 为 三 种 不 同 的 课程 
运动 在 40 分 钟 内 所 消耗 的 卡路里 数据 。 这 些 数 据 A B C D 
是 和 否 表明 三 种 运动 所 消耗 的 卡路里 数量 是 不 同 的 ? 3 2 19 20 
在 显著 性 水 平 0.05 下 ， 你 的 结论 如 何 ? 14 7 16 4 
游泳 网 球 自行 车 . 5; 
408 415 385 12 5 18 6 
380 485 250 13 11 17 8 
18.5 秩 相 关 


在 第 3 章 介绍 的 皮尔 逊 积 矩 相关 系数 是 两 个 数量 型 数据 变量 之 间 线 性 关系 的 度量 。 在 本 节 ， 当 使 用 顺序 或 排 


昌 ” 如 果 能 得 出 总 体 具有 相同 的 形态 的 假定 ， 克 和 鲁 斯 卡尔 - 沃 利 斯 检验 就 变 成 了 关于 上 个 总 体 中 位 数 的 检验 。 
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秩 数 据 时 ， 我们 给 出 两 个 变量 之 间 联 系 的 相关 性 度量 。 斯 皮尔 





曼 秩 相关 系数 正 是 为 这 一 目的 而 提出 来 的 。 





让 我 们 说 明 斯 皮尔 曼 秩 相关 系数 的 应 用 。 一 家 公司 想 确 定 那些 在 雇用 时 预期 会 成 为 较 好 推销 员 的 人 是 否 能 够 
真正 拥有 良好 的 销售 业绩 。 为 了 研究 这 个 问题 ， 人 事主 管 仔细 回顾 表 18-16 销售 潜力 与 两 年 实际 销售 数据 
了 现 有 销售 队伍 中 10 名 成 员 原 来 的 求职 面试 报告 、 学 习 记 录 和 推 

















2 推销 员 。 潜力 排 秩 两 年 销 。 两 年 销售 

荐 信 。 审 核 之 后 ， 这 位 主管 根据 这 10 个 人 在 聘用 期 成 功 的 潜力 进 售 量 (个 ) ” 量 排 秩 
行 排序 ， 最 有 潜力 的 秩 为 1。 然后 又 收集 每 一 位 推销 员 聘用 前 两 年 A 2 400 I 
的 实际 销售 业绩 s 根据 每 一 位 推销 员 的 实际 销售 业绩 ， 得 到 10 名 i, | : 
推销 员 实 际 销售 业绩 的 第 二 次 排 秩 。 表 18-16 给 出 了 以 潜力 和 实际 D 1 295 6 
销售 业绩 为 依据 的 排 秩 。 E 6 280 7 
F 3 350 4 
i G 10 200 10 
程 汇总 H 9 260 g 
di， 列 在 第 4 列 a 的 和 为 44 pi 列 。 -这 个 值 和 样本 容量 n=10 : . i 

皮尔 逊 积 矩 相关 系数 相似 ， 秩 





相关 系数 接近 于 +1.0 ep : 而 秩 相关 系数 接近 于 -1.0 意味 着 两 个 变量 之 间 存 在 
很 强 的 负 相 关 关 系 : 秩 相 关系 数 为 0 意味 着 两 个 变量 之 间 没 有 相关 关系 。 在 本 例 中 ，r, =0.733 表明 销售 潜力 的 秩 和 实际 
相关 关系 。 在 聘用 期 间 潜 力 的 秩 较 高 的 推销 员 在 前 两 年 实际 销售 业绩 的 排 秩 也 比较 高 。 


0 和 







A 2 1 | 1 
B : 4 3 1 1 
C 7 5 2 4 
rh 1 6 5 25 
E 6 7 1 1 
F 3 4 1 1 
G 10 10 0 oh 
H 9 8 1 1 
I 8 9 1 1 
| J 5 2 3 9 
Ed =44 
63.d? 6 x44 








Ey ml CO I 





此 时 ,我 们 可 能 希望 利用 样本 秩 相关 系数 7, 来 推断 总 体 的 秩 相关 系数 P,。 为 此 ， 我 们 检验 下 面 的 假设 。 
Ho:p, = 0 


| Hpyia 0 
在 假定 原 假设 为 真 和 总 体 的 秩 相关 系数 为 0 的 条 件 下 ， 用 来 进行 检验 的 检验 统计 量 7, 的 抽样 分 布 如 下 。 


第 18 章 非 参 数 方法 479 





销售 潜力 与 销售 业绩 的 样本 秩 相关 系数 为 r, =0.733。 由 式 (18-9) 我 人 及, =0， 由 式 (18-=10) 我 们 有 = 
V17(10 -1) =0.333。 由 于 的 抽样 分 布 近似 服从 正 态 分 布 ， 标 准 正 态 随机 变量 z 成 为 检验 的 统计 量 ， 而 且 


利用 标准 正 态 分 布 表 和 z=2. 20， 我 们 看 到 双 侧 p- 值 为 x (1 -0.9861) =0.0278。 在 显著 性 水 平 0.05 下 ， 
由 于 p- 值 <a =0.05， 因 此 总 体 秩 相关 系数 为 0 的 原 假设 被 拒绝 。 检 验 结果 表明 聘用 期 间 的 销售 潜力 与 实际 销售 
业绩 之 间 存 在 显著 的 秩 相关 关系 。 


注释 和 评论 
斯 皮尔 受 秩 相关 系数 与 应 用 于 秩 -等 级 数据 的 皮尔 逊 积 给 相关 系数 是 相同 的 。 在 附录 18A 和 18B 中 ， 我 们 演 
示 了 如 何 利用 皮尔 壕 积 和 给 相关 系数 的 Minitab 和 Excel 的 相关 系数 工具 来 计算 斯 皮尔 受 秩 相 关系 数 。 








女 32. 考虑 下 列 10 个 元 素 所 组 成 的 样本 的 排 秩 数据 。 — 
z 北 达科他 8 7 
南达科他 10 5 
华盛顿 3 9 
a. 每 名 学 生 费 用 与 师 生 比 之 间 的 秩 相关 系数 是 多 
少 ? 请 讨论 。 
b. 在 显著 性 水 平 a=0.05 下 ,每 名 学 生 费 用 与 师 
a. 计算 数据 的 斯 皮尔 受 秩 相关 系数 。 生 比 之 间 是 否 存 在 显著 相关 关系 ? z 
b. 在 显著 性 水 平 aq=0.05 下 ,检验 秩 相关 的 显著 ”36. 一 个 职业 高 尔 夫 球员 样本 的 击 球 距 离 和 击 球 杆 数 
性 。 你 的 结论 如 何 ? 的 排 秩 结果 如 下 。 这 些 高 尔 夫 球员 的 击 球 距 离 和 击 
应 用 球 杆 数 之 间 的 秩 相 关系 数 是 多 少 ? 在 显著 性 水 平 
女 34. 下 面 是 11 个 州 以 每 名 学 生 费 用 (1 为 最 高 ，11 为 10pE， 格 入 天 因数 入 时 关闭 。 
最 低 ) 和 师 生 比 (1 为 最 低 ，11 为 最 高 ) 为 依据 职业 高 尔 夫 选手 击 球 距离 击 球 杆 数 
的 的 排 秩 数据 。 Fred Couples 1 5 
aa David Duval 5 6 
州 每 名 学 生 费 用 师 生 比 ie Els 4 10 
亚 利 汪 那 9 10 Nick Faldo 9 2 
科罗拉多 5 8 Tom Lehman 6 
佛罗里达 Justin Leonard 10 3 
爱 达 茶 站 Davis Love 亚 2 8 
艾 奥 瓦 6 4 二 
路 易 斯 安 屠 ]1 3 Phil Mickelson 3 9 
马萨诸塞 | 1 Greg ee 7 4 
内 布 拉 斯 加 - 2 Mark O* Meara 8 1 
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未 章 我 们 给 出 了 儿 种 被 归 类 为 非 参数 方法 的 统计 程 
序 。 国 为 非 参 数 方法 不 仅 可 以 应 用 于 数量 型 数据 ， 而 且 
可 以 应 用 于 分 类 型 数据 ， 同 时 也 不 要 求 对 总 体 分 布 的 候 
设 ， 所 以 它们 扩展 了 统计 分 析 研 究 对 象 问题 的 范围 。 

符号 检验 是 检验 一 个 总 体 中 位 数 或 匹配 样本 的 非 
参数 方法 。 数 据 必须 汇总 成 两 个 类 别 ， 其 中 一 个 记 为 
加 号 ， 另 一 个 记 为 减 号 。 当 可 以 用 的 是 数量 型 数据 时 ， 
威 尔 科 克 森 符号 秩 检验 分 析 来 自 两 个 总 体 的 匹配 样本 。 
它 对 配对 观测 值 之 差 的 分 布 没 有 假设 ， 只 需要 假定 配 
对 观测 值 之 差 是 对 称 的 。 威 尔 科 克 森 符号 秩 检 验 用 于 
确定 配对 总 体 中 位 数 之 差 是 否 为 零 。 该 检验 也 可 以 用 
于 对 对 称 总 体 中 位 数 进行 推断 。 

曼 一 惠 特 尼 一 威 尔 科 克 森 检验 是 一 种 基于 两 个 独立 
随机 样本 ,; 用 于 检验 两 个 总 体 间 差异 的 非 参 数 方法 。 它 
是 和 两 个 总 体 均值 之 差 的 参数 ! 检验 相对 应 的 方法 。 从 


过 £7 2 - 






parametric methods 参数 方法 通常 从 总 体 概率 分 
布 服 从 正 态 分 布 的 假定 开始 的 统计 方法 ， 然 后 推导 
出 检验 统计 量 的 抽样 分 布 ， 并 用 来 对 总 体 的 一 个 或 
多 个 参数 (如 总 体 均 值 及 或 总 体 标准 差 o) 进 
行 推断 。 

nonparametric methods 非 参 数 方 法 对 总 体 的 概率 
分 布 的 形式 没有 假设 要 求 的 统计 方法 ， 通 常 也 称 为 
无 分 布 方法 。 一 些 方法 既 可 以 使 用 分 类 型 数据 也 可 


以 使 用 数量 型 数据 。 
distribution-free method 无 分 布 方法 对 总 体 的 概率 
分 布 没 有 假定 的 统计 方法 。 


sign test ”符号 检验 ”对 总 体 中 位 数 的 假设 ,或 为 了 确 
定 基 于 匹配 样本 的 两 个 总 体 之 间 差 异 的 一 种 非 参数 
统计 检验 方法 。 数 据 汇 总 成 两 个 类 别 ， 其 中 一 个 记 
为 加 号 舅 一 个 记 为 减 号 ，p =0.50 的 二 颈 分 布 是 检 
验 统 计量 的 抽样 分 布 。 

Wilcoxon signed-rank test 威 尔 科 克 森 符 号 秩 检验 





重要 公式 ”王国 
符号 检验 : 正 态 近 似 


均值 ;j= 0. 50n C0) 
标准 差 : og = 0.25n (18-2) 






以 匹配 样本 为 依据 的 两 个 总 体 中 位 数 之 差 的 一 种 非 





两 个 混合 样本 的 数据 中 得 到 混合 秩 ， 用 第 1 个 样本 的 秩 和 
作为 MWW 检验 的 统计 量 。 在 许多 应 用 中 ， 样 本 容量 充分 
大 ， 足 以 用 带 有 连续 性 校正 因子 的 正 态 分 布 近 似 来 进行 假 
设 检验 。 如 果 对 总 体 的 分 布 没 有 假定 ，MWW 方法 检验 两 
个 总 体 是 否 相同 。 妃 果 假定 两 个 总 体 上 共有 相同 的 形态 ， 检 
验 给 出 了 关于 两 个 总 体 中 位 数 之 间 差 异 的 推断 。 

友和 鲁 斯 卡尔 - 沃 利 斯 检验 将 MWW 检验 扩展 到 三 
个 或 多 个 的 总 体 ， 它 是 和 检验 三 个 或 多 个 正 楚 总 体 均 
值 闻 差异 的 ANOVA 参数 检验 相对 应 的 非 参 数 方法 。 克 
和 鲁 斯 卡尔 - 沃 利 斯 检验 不 需要 对 总 体 的 分 布 有 和 任何 假 
定 ， 并 且 使 用 上 个 总 体 相 同 的 原 假设 。 如 果 假 定 总 体 
具有 相同 的 形态 ， 检 验 给 出 了 关于 天 个 总 体 中 位 教之 
间 差 异 的 推断 。 在 本 章 的 最 后 一 节 中 ， 我 们 人 外 绍 了 斯 
皮尔 曼 秩 相关 系数 ， 它 以 秩 一 顺序 数据 为 依据 的 两 个 
变量 相关 性 的 一 种 度量 。 


' ee es 












参数 粒 难 方法。 该 方法 使 用 数量 型 数据 ， 并 假定 配 

对 观测 值 之 差 的 分 布 是 对 称 的 。 配 对 观测 值 之 差 的 

数据 可 以 用 于 对 两 个 总 体 的 中 位 数 进行 推断 ， 该 检 

验 也 可 以 对 一 个 对 称 总 体 的 中 位 数 进行 推断 。 

Mann-Whitney-Wilcoxon (MWW) test 曼 - 惠 特 尼 - 
威 尔 科 克 森 (MWW) 检验 以 来 自 每 个 总 体 的 独立 
样本 为 依据 的 两 个 总 体 之 间 差 异 的 一 种 非 参 数 统计 检 
验方 法 ， 原 假设 是 两 个 总 体 相 同 。 如 果 假 定 总 体 具 
有 相同 的 形态 ， 检 验 给 出 了 关于 两 个 总 体 中 位 数 之 
间 差 异 的 推断 。 

Kruskal-Wallis test ” 克 鲁 斯 卡尔 - 沃 利 斯 检验 ”以 来 
自 每 个 总 体 独 立 样 本 的 分 析 为 依据 的 三 个 或 三 个 以 
上 总 体 之 间 差 异 的 一 种 非 参 数 检验 方法 ， 原 假设 为 
所 有 总 体 相同 。 如 果 假 定 总 体 具有 相同 的 形态 ， 检 
验 给 出 了 关于 多 个 总 体 中 位 数 之 间 差 异 的 推断 。 

Spearman rank-correlation Coefficient 斯 皮尔 曼 秩 相 
关系 数 ” 以 秩 = 顺序 数据 为 依据 的 两 个 变量 之 间 联 
系 的 相关 性 度量 。 

威 尔 科 殉 和 森 符号 秩 检验 ; 正 态 近似 
均值 : jr = a 





(18-3) 


标准 差 : or = tl (18-4) 


曼 - 惠 特 尼 - 威 尔 科 克 森 检验 : 正 态 近似 


均值 ; jw = ni(n +n, +1)/2 (18-5) 


标准 差 : gy = Vnn(n +n, +1)/12 (18-6) 





YE 二 

1 一 - | 

T fr 了 T a | 
> jg = 


38. 一 项 调查 询问 了 如 下 问题 : 你 赞同 还 是 反对 给 予 
将 子女 送 入 私立 学 校 的 家 庭 提供 来 自 国 家 税收 的 
代金 券 或 者 减 税 ? 在 接受 调查 的 2010 人 中 ， 有 
905 人 网 同 进 行 这 种 资助 ， 有 1045 人 反对 进行 这 
种 资助 ， 还 有 60 人 没有 表明 观点 。 在 显著 性 水 平 
0. 05 下 ， 这 些 数据 是 否 能 够 表明 人 们 对 将 子女 送 
入 私立 学 校 的 家 庭 给 予 资 助 存在 分 歧 ? 


40. 请 来 12 名 家 庭 主妇 估计 两 种 型 号 冰箱 的 零售 价格 。 


下 面 是 她 们 估计 的 零售 价格 。 利 用 这 些 数 据 和 显著 
性 水 平 0.05， 就 家 庭 主妇 对 零售 价格 的 看 法 ， 确 


定 两 种 型 号 冰箱 之 间 是 否 存在 差异 。 
家 庭 主 妇 型 号 1 (美元 ) 型 号 2 (美元 ) 
1 850 1 100 
2 960 920 
3 940 890 
4 900 1 050 
+ 790 1 120 
6 820 1 000 
到 900 1 090 
8 890 1120 
9 1 100 1 200 
10 700 890 
11 810 900 
12 920 900 


42. 以 下 的 数据 是 两 条 生产 线 上 所 生产 的 产品 重量 。 


在 显著 性 水 平 a=0.05 下 ， 检验 两 条 生产 线 所 生产 


的 产品 重量 是 否 存在 差异 。 
生产 线 1 生产 线 2 生产 线 1 生产 线 2 
13.6 13.7 13.3 14.4 
13.8 14.1 13.6 14.8 
14.0 14.2 12.9 14.5 
13.9 14.0 14.4 14.3 
13.4 14.6 15.0 
13, 2 13.5 14.9 





44. 
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克 鲁 斯 卡尔 - 沃 利 斯 检验 统计 量 
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65d 
) 
n(n -1) 


Ws 


由 20 名 已 在 一 家 公司 工作 了 三 年 的 工程 师 组 成 样 
本 ， 对 这 些 工程 师 按 管理 潜力 进行 排 秩 。 其 中 有 一 
些 工程 师 已 经 参加 过 公司 的 管理 培训 课程 ， 另 一 
些 人 参加 了 当地 大 学 的 短期 管理 培训 课程 ， 剩 下 
的 则 没有 参加 过 任何 培训 课程 。 利 用 下 面 的 排 秩 
数据 ， 在 显著 性 水 平 a =0.025 下 ,检验 三 组 工程 


(18-8) 





师 的 管理 潜力 的 显著 差异 。 
未 参加 培训 公司 课程 培训 短期 课程 培训 

16 12 | 

9 20 1 

10 WW 4 

15 19 2 

11 6 3 

13 18 8 

14 5 


. 下 面 是 15 名 学 生 统 计 学 课程 期 中 和 期 末 考 试 成 绩 


的 排 秩 样本 数据 。 计 算 这 些 数 据 的 斯 皮尔 受 秩 相 
关系 数 ， 并 在 显著 性 水 平 wk =0. 10 下 ， 检 验 显 著 相 
头 性 。P- 值 是 多 少 ? 你 的 结论 如 何 ? 


秩 秩 

期 中 期 未 期 中 期 末 
I 4 9 6 

2 7 10 9 

3 1 11 14 
4 3 12 15 

5 8 13 11 

6 2 14 10 
7 5 15 13 

3 12 
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实践 中 的 统计 
陶 氏 化 学 公司 


得 克 萨 斯 州 ， 


1940 年 ， 陶 氏 化 学 公司 (Dow Chemical Company ) 
在 得 克 萨 斯 州 墅 西 哥 湾 沿 岸 购 买 了 800 英亩 的 土地 ， 
用 以 建造 一 个 镁 生产 设施 。 如 今 那 片 厂址 已 经 扩展 到 
超过 5 000 英亩 ， 该 公司 也 成 为 世界 上 最 大 的 石油 化 工 
复合 型 企业 之 一 。 和 得克萨斯 州 陶 氏 化 学 公司 的 产品 包 
括 铁 、 共 乙烯、 塑料 、 胶 烙 剂 、 湾 剂 、 乙 二 醇和 和 氧气 
等 。 有些 产品 制造 出 来 仅仅 是 为 了 用 于 其 他 产品 的 生 
产 ,， 但 是 很 多 产品 则 是 成 为 医药 、 牙 膏 、 狗 粮 、 水 管 、 
冰箱、 奶 桶 、 垃 圾 袋 、 洗 发 水 各 家具 等 产品 的 必要 的 
基础 性 原料 。 

得 克 萨 斯 州 陶 氏 化 学 公司 所 生产 的 镁 产量 占 全 世 
界 总 产量 的 30% 以 上 。 镁 是 一 种 极 轻 的 金属 ， 它 用 于 
生产 网 球拍 、 衣 物 箱 以 及 镁 合金 轮胎 等 各 类 的 产品 。 
该 公司 的 镁 技术 部 门 是 首先 利用 统计 质量 管理 方法 培 
训 其 技术 人 员 和 管理 人 员 的 部 门 ， 统 计 质 量 管理 的 最 
初 的 一 些 成 功 应 用 出 现在 化 学 处 理 过 程 之 中 。 

干燥 剂 的 生产 是 其 中 的 一 个 应 用 。 在 这 个 应 用 


弗 里 波 特 


中 ， 他 们 每 隔 一 定 周期 抽取 产品 组 成 样本 ， 计 算 每 个 
样 示 的 平均 值 ， 并 且 将 它们 记录 在 元 控 制图 上 。 利 用 
这 种 控制 图 ， 陶 拓 化 学 公司 的 分 析 家 可 以 监控 产品 的 
生产 过 程 ， 随 时 预警 过 程 的 非 正常 运转 。 一 个 实例 
是 ， 分 析 家 开始 观察 样本 均值 的 数值 ， 该 数值 显示 有 
一 次 过 程 的 运转 在 它 的 设计 范围 之 外 。 经 过 对 控制 图 
和 运转 情况 的 进一步 观察 ， 分 析 家 发 现 差异 可 以 追 测 
到 某 个 操作 大 员 。 在 该 操作 人 员 重 新 培训 后 ， 通 过 记 
录 的 x 控制 图 ， 可 以 看 到 过 程 的 质量 已 经 有 了 重大 的 
改进 。 

陶 氏 化 学 公司 在 任何 使 用 统计 质量 管理 的 地 方才 
可 以 取得 质量 的 大 幅度 改进 。 公 司 每 年 节约 成 本 数 十 
万 美元 ， 并 且 不 断 地 发 现 新 的 应 用 。 

本 音 我 们 将 疗 述 殊 氏 化 学 公司 所 使 用 的 元 控制 图 
是 如 何 构造 的 。 控 制图 是 统计 质量 控制 的 一 部 分 ， 它 
被 称 为 统计 过 程控 制 。 我 们 也 将 讨论 以 样本 为 根据 来 
决定 接收 或 者 拒绝 一 组 项 目的 质量 管理 方法 。 





美国 质量 协会 ”( American Society for Quality，ASQ) 对 质量 是 这 样 定义 的 :“ 质 量 是 产品 或 服务 的 所 有 性 质 和 
特征 ， 这 些 性 质 和 特征 使 得 该 产品 或 服务 能 够 满足 特定 的 需要 。” 换 句 话 说， 质量 可 以 测量 产品 或 服务 满足 顾客 
需要 的 程度 。 很 多 企业 意识 到 在 全 球 经 济 克 争 的 今天 ， 它 们 必须 追求 高 水 平 的 质量 。 因 此 ， 对 质量 的 检验 和 维护 


有 必要 在 方法 上 加 以 重视 6 


今天 ， 作 为 高 绩效 组 织 基础 的 顾客 驱动 视角 改变 了 质量 问题 所 包含 的 范围 ， 从 简单 地 排除 生产 线 上 的 缺陷 产 
品 到 建立 运用 广泛 的 公司 战略 。 扩 大 质量 的 范围 自然 导致 全 面 质量 (total quality，TQ) 的 概念 。 

人 多面 质量 是 以 人 为 本 的 管理 系统 ， 其 目的 在 于 不 断 降低 实际 成 本 以 持续 提升 顾客 满意 度 。 全 面 管理 是 一 种 全 
面 系统 的 方法 (不 是 一 个 单独 的 领域 或 工作 项 目 ) 和 高 水 平 战略 的 组 成 部 分 ; 它 横 跨 职能 与 部 门 运转 ， 从 上 到 下 
包括 全 体 员 工 ， 通 过 前 向 后 向 延展 将 质量 管理 扩展 到 供应 链 与 消费 链 领域 。 全 面 质量 强调 学 习 和 适应 并 将 持续 改 


变 作 为 组 织 成 功 的 关键 。 


不 管 全 面 质量 在 不 同 组 织 中 是 如 何 实现 的 ， 它 主要 依据 三 个 基本 原理 : 以 顾客 和 股东 为 中 心 ; 将 参与 精神 与 
团队 合作 贯穿 整个 组 织 ; 以 不 断 改进 和 学习 为 中 心 。 在 本 章 第 一 节 ,， 我 们 简要 介绍 质量 管理 的 三 个 框架 : 马尔 科 
姆 . 鲍 德 里 奇 全 国 质量 奖 、ISO 9000 标准 和 六 西格玛 原则 。 在 后 两 节 中 ， 我 们 介绍 两 种 用 于 检测 过 程 的 统计 工 


具 : 统计 过 程控 制 和 接受 抽样 。 


”作者 感谢 为 “实战 中 的 统计 ”提供 了 本 案例 的 陶 氏 化 学 公司 镁 技术 部 门 经 理 Clifford B. Wilson 先生 。 

名 ”美国 质量 协会 的 愿景 :“ 通 过 制定 作为 全 局 的 重点 、 组 织 的 责任 和 个 人 的 道德 规范 的 质量 标准 ， 美 国 质量 协会 成 为 那些 探求 质量 观 
念 、 技 术 和 工具 来 改变 他 们 自己 和 他 们 世界 的 每 一 个 人 的 困 体 ”( ASQ website) . 

全 JR.Evans, W. M. Lindsay. The Management for Quality and Performance Excellent, 8th ed. (Cinoinnati, Oh: South- Westernn, 2011 ) ， 
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19.1 理念 和 框架 


在 20 世纪 初期 ， 质 量 管理 实践 仅 限 定 于 检验 已 完成 的 产品 并 噜 除 有 缺陷 的 项 目 。 但 是 这 一 切 的 改变 归功 于 
一 位 名 为 沃尔特 A. 休 了 哈 特 〈Walter A. Shewhart) 的 年 轻 工 程 师 的 开拓 性 成 就 。1917 年 从 哥伦比亚 大 学 物理 系 获 
得 博士 学 位 后 ， 体 哈 特 博士 加 入 西部 电话 公司 ， 在 工程 检验 部 工作 。1924 年 体 哈 特 博士 编写 了 今天 众所周知 的 过 
程控 制 基本 原理 的 一 套 准 则 备忘录 ， 同 时 他 的 备 愁 录 中 还 包含 被 公认 为 统计 控制 图 的 图 表 。 体 哈 特 博 士 在 贝尔 电 
话 实 验 室 继续 从 事 他 的 质量 工作 直到 1956 年 退 体 ， 他 将 统计 学 、 工 程 学 、 经 济 学 等 学 科 融 合 在 一 起 ， 从 而 改变 了 
工业 历史 的 进程 。 休 哈 特 博士 是 公认 的 统计 质量 控制 之 父 ， 也 是 美国 质量 管理 协会 的 首 批 名 誉 会 员 。 

还 有 两 个 人 对 质量 有 重大 影响 ， 其 中 一 人 是 休 哈 特 博 士 的 学 生 之 一 W. 爱德华 ' 戴 明 (W. Edwards Deming) 
博士 > ， 另 一 人 是 约瑟夫 朱 兰 (Joseph Juran) 博士 。 在 第 二 次 世界 大 战 后 不 入 ， 他 们 在 质量 管理 方面 帮助 教育 
日 本 人 人。 尽管 质量 是 每 个 人 的 工作 ， 但 是 戴 明 博士 强调 ， 注 重 质量 必须 由 管理 者 领导 。 他 提出 了 对 管理 者 至 关 重 
要 的 14 个 职责 要 点 。 例 如 ， 戴 明 认 为 管理 者 必须 结束 对 大 量 检 验 的 依赖 ; 必须 终止 仅 任 价格 就 做 出 商业 行为 的 
做 法 ; 必须 寻求 在 所 有 生产 过 程 和 服务 中 的 不 断 改进 ; 必须 培养 团队 合作 精神 的 环境 ; 必须 消除 数量 化 的 目标 、 
口号 和 确定 数量 定额 的 工作 标准 。 也 许 最 重要 的 是 管理 者 必须 创造 一 个 工作 环境 ， 在 这 个 环境 中 ， 质 量 和 生产 率 
的 标准 在 任何 时 候 都 能 得 到 维持 。 

朱 兰 为 质量 下 了 一 个 简单 的 定义 : 质量 必须 与 实用 性 相 匹 配 。 朱 兰 的 质量 方法 关注 三 个 质量 过 程 : 质量 计 
划 、 质 量 控制 和 质量 改进 。 与 戴 明 的 需要 在 组 织 中 开展 重大 文化 变革 的 理念 相 比 ， 朱 兰 的 方案 旨 在 当前 的 组 织 系 
统 内 提高 工作 质量 。 虽 然 如 此 ， 但 是 在 关注 高 级 管理 人 员 的 需要 ， 强 调 持续 改进 与 培训 的 重要 性 以 及 质量 控制 技 
术 的 使 用 等 方面 ， 两 种 基本 原理 是 相似 的 。 

在 质量 改进 运动 中 ， 许 多 学 者 发 挥 了 重要 作用 ,包括 菲利普 B. 克 劳 土 比 、A. V. 费 根 饱 姆 、 石 川 世 、 田 口 玄 
一 等 人 。 专 门 关注 质量 的 专业 教材 详细 描述 了 他 们 的 贡献 。 涉 及 质量 活动 的 所 有 人 的 贡献 定义 了 最 佳 实践 ， 并 导 
致 了 众多 奖项 和 认证 项 目的 问世 。 甚 申 两 个 最 重要 的 项 目 是 美国 的 马尔 科 姆 ” 鲍 德 里 奇 国家 质量 奖 和 JS0 9000 国 
际 认 证 过 程 。 近 年 来 ， 六 西格玛 (一 种 基于 严格 数据 收集 和 统计 分 析 来 改进 组 织 业 绩 的 技术 ) 的 使 用 也 在 增加 。 


19. 1. 1 马尔 科 姆 : 鲍 德 里 奇 国家 质量 奖 

由 美国 总 统 颁发 的 马尔 科 姆 ， 全 德里 奇 国 家 质量 奖 授予 在 七 个 方面 表现 杰出 的 组 织 : 外 领导; 四 战略 策划 |; 
四 客户 和 市 场 ; 人 岂 测 量 、 分 析 和 信息 管理 ; @ 人 类 资源 ; 人 @@ 流 程 管理 ; 经营 成 果 。 美 国 国会 于 1987 年 通过 了 奖 
励 计 划 ， 以 表彰 在 质量 方面 做 出 成 就 的 美国 组 织 ， 以 此 提高 人 们 把 质量 作为 竞争 优势 重要 性 的 意识 。 该 奖项 以 美 
国 商务 部 前 部 长 马尔 科 姆 * 鲍 德 里 奇 命 名 ， 他 于 1981 年 任职 ， 直 至 1987 年 去 世 。 

自 1988 年 首次 颁奖 以 来 ， 马 尔 科 姆 : 鲍 德 里 奇 国家 质量 奖 (BNQP) 在 深度 和 影响 力 方面 逐渐 拓展 。1988 年 
以 来 ， 已 经 分 发 了 近 200 万 册 准 则 手册 ， 通 过 组 织 的 大 规模 复制 以 及 电子 化 途径 ， 其 数量 得 到 有 效 的 增长 。 在 连 
续 8 年 中 ， 假 设 股票 指数 (由 公开 交易 的 获得 鲍 德 里 奇 奖 的 美国 公司 构成 ) 优 于 标准 普尔 500。 在 某 一 年 ， 鲍 德 
里 奇 指数 以 4.4: 1 优 于 标准 普尔 500。 摩 托 罗 拉 公 司 执行 副 总 裁 鲍 勃 . 巴 内 特 说 : “我 们 申请 这 个 奖 ， 不 是 为 了 
获奖 ， 而 是 为 了 得 到 鲍 德 里 奇 主考 官 的 评价 。 这 个 评价 是 全 面 的 、 专 业 的 和 富有 洞察 力 的 …… 今 天 ， 无 论 在 世界 
何 地 ， 它 都 是 最 有 经 济 效益 的 、 有 价值 的 商业 咨询 福 动 。 


19. 1.2 1SO 9000 
ISO 9000 是 由 5 个 国际 标准 组 成 的 一 个 系列 标准 ， 由 设 在 瑞士 日 内 瓦 的 国际 标准 化 组 织 (1SO) 于 1987 年 颁 
昌 第 二 次 世界 大 战 之 后 ，W,， 爱德华 戴 明 博士 成 为 日 本 工业 顾问 。 他 说 服 日 本 高 层 管理 者 使 用 统计 质量 控制 方法 。 


加 美国 商务 部 的 国家 标准 和 技术 研究 院 ( NIST) 管理 马尔 科 姆 ， 鲍 德里 奇 国 家 质量 项 目 ， 可 以 从 NIST 的 网 站 上 得 到 更 多 信息 。 
旧 2004 年 是 鲍 德 里 奇 股票 研究 的 最 后 一 年 ， 因 为 非 营 利 或 私有 企业 接受 者 的 数量 在 增加 。 
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布 。 公 司 可 以 利用 这 些 标准 帮助 确定 ， 维 持 一 个 有 效 的 质量 一 致 性 体系 需要 有 哪些 方面 。 例 如， 标准 描述 一 个 有 
效 质量 体系 的 需要 ; 对 确保 定期 测量 和 检测 设备 使 其 符合 标准 的 需要 ， 以 及 对 维持 一 个 令 人 满意 地 记录 保持 系统 
的 需要 。1SO 9000 认证 确定 一 个 公司 是 否 遵 守 其 质量 体系 ?。 总 之 ，ISO 9000 认证 覆盖 的 鲍 德 里 奇 质量 奖 标准 不 
到 1095 。 


19. 1. 3 六 西格玛 


在 20 世纪 80 年 代 后 期 ， 摩 托 罗 拉 认 识 到 改进 其 产品 和 服务 质量 的 需要 。 他 们 的 目标 是 达到 非常 高 的 质量 水 
平 ， 以 至 于 每 百 万 产品 出 现 缺 陷 的 机 会 不 超过 3.4。 这 个 质量 水 平 被 称 为 六 西格玛 质量 水 平 ， 达 到 这 个 质量 目标 
创造 的 方法 被 称 为 六 西格玛 (six sigma) 。 

一 个 组 织 可 以 承担 两 类 六 西格玛 方案 : 

。 DMAIC (Define，Measure，Analyze，JImprove and Control， 和 界定、 测量、 人 分析、 改进 和 控制 ) 帮助 重新 设 

计 已 存在 的 过 程 。 

。 DFSS (六 西格玛 设计 ) 来 于 设计 新 产品 、 过 程 或 服务 。 

重新 设计 已 存在 的 过 程 和 新 过 程 中 ， 六 西格玛 着 重 强调 统计 分 析 和 仔细 测量 。 今 天 ， 在 帮助 组 织 的 经 营业 绩 
和 过 程 质量 达到 鲍 德 里 奇 的 水 平方 面 ， 六 西格玛 已 经 成 为 一 个 主要 工具 。 许 多 鲍 德 里 奇 的 主考 官 视 六 西格玛 为 完 
成 饱 德里 奇 改 进 方案 的 理想 方法 。 

六 西格玛 线 和 每 百 万 个 机 会 中 的 缺陷 数 ”在 六 西格玛 术语 中 ， 缺 陷 是 指 传递 给 消费 者 的 任何 错误 或 误差 。 六 
西格玛 过 程 定 义 质 量 性 能 为 百 万 个 机 会 中 的 缺陷 数 (dpmo) 。 正 如 我 们 前 面 指出 的 ,， 六 西格玛 要 求 的 质量 水 平 不 
超过 3.4 个 dpmo。 为 了 阐明 如 何 测量 这 个 质量 水 平 ， 我 们 考虑 KJW 包装 公司 的 情形 。 

KJW 公司 经 营 一 条 填 装 谷物 箱 的 生产 线 。 填 装 过 程 的 均值 为 及 =16.05 和 阁 司 ,标准 差 为 oo=0.10 将 司 。 男 外 ， 
假设 填 装 重量 服从 正 态 分 布 ， 填 装 重量 的 分 布 如 图 19-1 所 示 。 假 设 管理 人 员 认 为 15.45 ~ 16. 65 次 司 是 填 装 过 程 
可 以 接受 的 质量 限 。 因 此 ， 小 于 15. 45 内 司 或 大 于 16.65 人 盎司 的 谷物 箱 则 被 认为 是 有 缺陷 的 。 利 用 Exeel = ， 可 以 
看 到 99. 999 999 8% 的 谷物 箱 ， 其 填 装 重量 在 16.05 -6 x0. 10 =15.45 (天 司 ) 和 16.05 +6 x0. 10 = 16. 65 ( 凋 司 ) 
之 间 ， 换 句 话 说， 只 有 0. 000 000 2 和 5 的 谷物 箱 填 装 重量 小 于 15. 45 益 司 或 大 于 16.65 得 司 。 因 此 在 填 装 过 程 中 发 现 有 
缺陷 的 谷物 箱 极 为 罕见 ， 因 为 在 1 000 万 箱 中 平均 只 有 2 箱 存在 缺陷 。 

摩托 罗拉 早期 在 六 西格玛 上 的 工作 使 它们 确信 ， 过 程 均值 平均 而 言 可 以 移动 高 达 1.5 个 标准 差 。 例 如 ， 假 设 
KJW 的 过 程 均值 增加 1.5 个 标准 差 或 1.5 x0.10=0.15 (和 状 司 )， 根 据 这 个 移动 ， 填 装 重量 正 态 分 布 的 中 心 将 变 为 
及 =16.05 +0.15=16.20 (次 司 )。 因 为 过 程 移 值 j=16.05 着 司 ， 得 到 谷物 箱 超过 16. 65 得 司 的 概率 非常 小 ， 但 
是 ， 如 果 过 程 均 值 移动 到 j=16. 20， 这 个 概率 将 如 何 变 化 ?图 19-2 中 显示 了 这 种 情况 ， 上 质量 限 16. 65 在 新 的 过 
程 均 值 凡 = 16. 20 状 司 右 侧 的 4.5 个 标准 差 。 利 用 这 个 均值 以 及 Excel， 我 们 发 现 ， 一 箱 重 量 大 于 16. 65 桥 司 箱 的 
概率 为 0.000 0034 三 。 因 此 ， 如 果 过 程 均 值 向 上 移动 1. 5 个 标准 差 ， 则 大 约 有 1 000 000 x0.00000034=3.4 (个 ) 
谷物 箱 超过 上 线 16. 65 天 司 。 在 六 西格玛 术语 中 ， 我 们 说 过 程 的 质量 水 平 是 每 百 万 缺陷 机 会 为 3.4。 如 果 KJW 的 
管理 人 员 认 为 15.45 ~16.65 盘 司 对 填 装 过 程 是 可 以 接受 的 质量 限 ， 则 KJW 填 装 过 程 被 认为 是 一 个 六 西格玛 过 程 。 
于 是 ， 如 果 过 程 均 值 停留 在 目标 值 扩 =16. 05 答 司 的 1.5 个 标准 差 之 内 ， 则 可 以 期 竺 每 百 万 填 谷 物 箱 中 最 多 只 有 
3.4 箱 存在 缺陷 。 

要 达到 和 维持 六 西格玛 质量 水 平 ， 组 织 必 须 强调 监控 和 维持 质量 。 质 量 保证 是 指 为 了 达到 和 维持 质量 ， 由 某 
个 组 织 制 定 的 政策 、 步 又 和 准则 的 整套 系统 。 质 量 保证 有 两 个 重要 功能 : 质量 工程 和 质量 控制 。 质 量 工程 的 目标 
包括 产品 设计 和 生产 过 程 设计 的 质量 ， 还 包括 在 生产 之 前 确定 质量 问题 。 质 量 控制 (quality control) 包括 一 系列 
的 检验 和 测量 以 确定 是 否 满 足 质量 标准 。 如 果 没 有 满足 质量 标准 ， 则 可 以 通过 修正 或 预防 措施 来 达到 和 维持 质量 


扣 1S0 9000 标准 周期 性 进行 修订 ， 以 改进 标准 的 质量 。 
加 利用 Excel, NORM. S. DIST (6, TRUE) <NORM. S. DIST ( -6，TRUE) =0.999999998。 
人 利用 Excel, 1 -NORM.S.DIST (4.5, TRUE) =0.0000034, 
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的 一 致 性 。 在 下 面 两 节 中 ， 我 们 将 介绍 在 质量 控制 中 所 使 用 的 两 种 统计 方法 。 第 一 种 方法 是 统计 过 程控 制 ， 利 用 
控制 图 的 图 形 显示 来 监控 生产 过 程 ; 其 目的 是 确定 过 程 能 否 继 续 或 者 是 否 应 采取 修正 措施 ， 以 达到 预期 的 质量 水 
平 。 第 二 种 方法 是 接受 抽样 ， 在 必须 根据 样本 中 发 现 的 质量 问题 ,决定 接 受 或 拒绝 一 组 项 目 时 ， 使 用 这 种 方法 。 





% 缺陷 
下 质量 限 上 质量 限 
过 程 均值 / 过 程 均值 增加 了 1.5 个 标准 关 
图 19-1 谷物 箱 填 装 重量 为 过 程 均值 图 19-2 谷物 箱 填 装 重量 为 过 程 均值 
=16.05 的 正 态 分 布 人 =16. 20 的 正 态 分 布 


19. 1.4 ”服务 业 中 的 质量 : 

虽然 质量 控制 的 根本 在 制造 业 ， 但 是 对 主要 重点 是 提供 服务 的 商业 ， 质 量 控制 也 是 非常 重要 的 。 提 供 服务 的 
商业 例子 主要 包括 保健 提供 者 、 法 律 事务 所 、 旅 店 、 航 空 公司 、 饭 店 和 银行 。 主 要 提供 服务 的 商业 是 美国 经 济 的 
一 个 非常 重要 的 组 成 部 分 。 事 实 上 ， 美 国 大 量 的 非 农业 雇员 从 事 提 供 服务 工作 。 

服务 业 中 的 质量 效果 不 是 关注 测量 生产 过 程 的 缺陷 ， 而 是 关注 确保 消费 者 满意 度 和 提升 消费 者 体验 。 通 常 ， 
由 于 留 住 一 个 消费 者 比 获 得 一 个 新 消费 者 的 成 本 要 低 ， 因 此 ,设计 提升 消费 者 服务 的 质量 控制 过 程 对 服务 业 至 关 
重要 。 消 费 者 满意 度 是 任何 服务 型 企业 成 功 的 关键。 

服务 业 与 制造 业 有 很 大 的 不 同 ， 而 且 如 何 测量 和 获得 质量 也 有 影响 。 提 供 的 服务 常常 是 无 形 的 【如 和 宿舍 顾问 
的 建议 )。 由 于 消费 者 满意 度 非常 主观 ， 因 此 测量 服务 中 的 质量 是 很 有 挑战 性 的 。 然 而 ， 通 过 测量 诸如 提供 服务 
的 及 时 性 以 及 进行 消费 者 满意 度 调 查 ， 可 以 监控 质量 。 这 是 一 些 干洗 丫 保 证 一 小 时 的 服务 以 及 汽车 服务 中 心 、 航 
室 公 司 和 饭店 请 求 你 填写 有 关 你 服务 体验 的 调查 问卷 的 原因 。 这 也 是 企业 使 用 顾客 积分 卡 的 原因 。 通 过 追踪 你 的 
购买 行为 ， 他 们 可 以 更 好 地 了 解 他 们 顾客 的 欲望 和 需求 ， 随 之 提供 更 好 的 服务 。 


19.2 ”统计 过 程控 制 


本 节 我 们 通过 一 个 连续 不 断 制造 货物 的 生产 过 程 来 考虑 质量 控制 程序 。 以 产品 生产 量 的 抽样 和 检验 为 依据 ， 
可 以 作出 是 继续 生产 过 程 还 是 调整 生产 过 程 的 决定 ,使 得 项 目 或 正在 生产 的 商品 达到 可 接受 的 质量 标准 。? 

尽管 在 制造 和 生产 经 营 中 会 执行 严格 的 高 标准 ， 但 是 机 械 设备 会 不 可 避免 地 有 磨损， 振动 将 会 使 机 械 设备 的 装 
置 难 以 调整 ， 购 买 的 原材料 可 能 有 人 缺陷， 操作 人 员 也 可 能 有 失误 。 所 有 这 些 因素 可 能 导致 低 质量 产品 的 产生 。 幸 
运 的 是 ， 监 控 生 产 的 程序 是 行 之 有 效 的 ， 能 比较 早 地 检测 出 低 质 量 的 产品 ， 生 产 过 程 因而 得 到 调整 或 修正 。 

如 果 生 产 的 产品 在 质量 上 的 变异 来 源 于 可 指出 的 原因 (assignable causes) ， 比 如 工具 的 磨损 、 错 误 的 机 器 安 
装 、 劣 质 原材料 或 者 操作 人 员 的 失误 等 ， 则 应 该 立即 调整 或 修正 生产 过 程 。 另 外 ， 如 果 变 异 来 源 于 所 谓 的 一 般 原 
因 (common causes)， 比 如 在 原料 、 温 度 和 湿度 等 方面 随机 出 现 的 差异 ， 生 产 者 可 能 无 法 控制 ， 生 产 过程 也 不 需 


日 ”持续 改进 是 全 面 质 量 管 理 活动 的 重要 概念 之 一 ， 控 制图 的 最 重要 的 应 用 是 改进 过 程 。 
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要 调整 。 统计 质量 控制 的 主要 目标 是 确定 生产 产品 的 质量 变异 是 来 源 于 可 指出 的 原因 还 是 一 般 原因 。 

无 论 何 时 我 们 发 现 可 指出 的 原因 ， 我 们 的 结论 是 ， 生 产 过 程 处 于 失控 状态 。 在 这 种 情况 下 ， 应 该 采取 纠正 措 
施 将 生产 过 程 重新 调整 到 可 以 接受 的 质量 水 平 。 但 是 ， 如 果 生 产 过 程 中 的 产品 变异 仅仅 来 源 于 一 般 原 因 ， 我 们 的 
结论 是 ， 生 产 过 程 处 于 统计 控制 状态 ， 或 简单 地 说 处 于 在 控 状 态 。 在 这 种 情况 下 ,我们 没有 必要 进行 改变 或 者 
调整 ”。 

过 程控 制 统计 程序 的 依据 是 第 9 章 介 绍 的 假设 检验 方法 。 原 假设 H, 表示 生产 过 程 处 于 在 控 状 态 ， 备 择 假设 
H, 表示 生产 过 程 处 于 失控 状态 。 表 19-1 表明 如 何 对 继续 在 控 状 态 过 程 和 调整 失控 状态 的 过 程 ， 作 出 正确 的 决定 。 
但 是 ， 同 其 他 假设 检验 程序 一 样 ， 第 一 类 错误 (调整 一 个 在 控 状 态 过 程 ) 和 第 二 类 错误 (允许 一 个 失控 状态 过 程 
继续 ) 都 有 可 能 发 生 。 

表 19-1 统计 过 程控 制 的 结果 


生产 过 程 的 状态 
Ho 为 真 Ho 为 伪 
过 程 在 于 控 过 程 失控 
继续 过 程 正确 结论 第 二 类 错误 
结论 (允许 一 个 失控 状态 过 程 继续 ) 
调整 过 程 第 一 类 错误 正确 结论 


(调整 一 个 在 控 状 态 过 程 ) 


19. 2. 1 控制 图 


控制 图 (control chart) 对 确定 产品 中 的 质量 变异 是 来 源 于 一 般 原因 (在 控 ) 还 是 来 源 于 一 般 原因 (失控 )， 
提供 了 一 个 做 出 决策 的 基础 。 无 论 任何 时 候 ， 一 旦 检测 出 失控 状态 ， 调 整 或 其 他 纠正 措施 将 使 过 程 重新 回 到 在 控 
状态 。 

控制 图 根据 它 所 包含 的 数据 的 类 型 进行 分 类 。 如 果 根 据 长 度 、 重 量 或 温度 等 的 变量 来 测量 产品 质量 ， 则 可 以 
使 用 控制 图 (x chart) 。 在 这 种 情况 下 ， 根 据 在 产 
品 样本 中 得 到 的 均值 来 确定 继续 或 调整 生产 过 程 。 
为 了 对 所 有 控制 图 介绍 一 些 一 般 性 的 概念 ， 我 们 先 
考虑 < 控制 图 的 一 些 特征 。 

图 19-3 显示 了 x 控制 图 的 一 般 结构 。 控 制图 的 
中 心 线 表示 在 控 状 态 过 程 的 均值 ， 垂 直线 表示 要 研 
究 变 量 的 测量 尺度 。 每 次 从 生产 过 程 中 抽取 一 个 样 
本 ,计算 出 样本 均值 x*， 然 后 将 表示 x* 值 的 数据 点 标 
在 控制 图 上 。 

记 为 UCL 和 LCL 的 两 条 线 ， 对 确定 过 程 是 处 于 图 19-3 “控制 图 的 结构 
在 控 状 态 还 是 失控 状态 非常 重要 ， 它 们 分 别 被 称 为 控制 上 限 和 控制 下 限 。 当 过 程 处 于 在 控 状 态 时 ,x 的 值 位 于 上 
下 控制 限 之 间 的 概率 很 大 。 位 于 控制 限 之 外 的 数值 给 出 强 有 力 的 统计 证 据 ， 过 程 处 于 失控 状态 ， 应 该 采取 纠正 
措施 。 

随 着 时 间 的 推移 ， 越 来 越 多 的 数据 点 被 添加 到 控制 图 上 。 数 据点 的 顺序 是 从 左 向 右 ， 与 抽取 样本 过 程 的 顺序 
相同 。 事 实 上 ， 每 当 在 控制 图 上 标 出 一 个 点 ， 就 表示 我 们 在 进行 一 次 假设 检验 来 确定 过 程 是 否 处 于 在 控 状 态 。 

除 * 控 制图 外 ， 可 供 使 用 的 其 他 控制 图 还 有 用 来 监测 样本 中 测量 值 极 差 的 R 控 制图 (Rehar) ， 样 本 中 缺陷 
比例 的 六 控制 图 (p chart) 和 样本 中 缺陷 项 目 数量 的 mp 控制 图 (np chart)。 对 每 一 种 情况 ， 控 制图 都 与 图 19-3 
的 记 控 制图 类 似 ， 有 一 条 LCL， 一 条 中 心 线 ， 一 条 UCL。 这 些 蓉 制图 的 主要 区 别 是 纵 轴 的 测量 尺度 不 同 ; 例如 ，p 





时 间 一 一 一 


日 、 过 程控 制程 序 与 本 书 前 面 讨论 过 的 假设 检验 程序 密切 相关 。 控 制图 为 处 于 在 控 状 态 过 程 假设 提供 了 一 个 持续 的 检验 。 
加 ”根据 用 连续 尺度 测量 的 数据 所 构造 的 控制 图 被 称 为 变量 控制 图 ，x 控制 图 就 是 一 个 变量 控制 图 。 
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控制 图 的 测量 尺度 是 样本 中 有 缺 陷 项 目的 比率 ， 而 不 是 样本 均值 。 在 接 下 来 的 讨论 中 ， 我 们 将 阐述 x 控制 图 、ER 
控制 图 、p 控制 图 以 及 np 控制 图 的 结构 和 使 用 。 


19. 2.2 Xx 控制 图 : 过 程 的 均值 和 标准 差 已 知 


为 了 阐述 * 控制 图 的 结构 ， 让 我 们 考虑 KJW 包装 公司 的 情形 。 我 们 记得 ，KJW 经 营 一 条 填 装 谷物 箱 的 生产 
线 。 当 生产 过 程 运转 正常 时 ， 即 系统 处 于 在 控 状态 ,平均 填 装 重量 为 =16.05 和 首 司 ， 并 且 过 程 的 标准 差 为 o = 
0. 10 益 司 。 另 外 ， 假设 填 装 重量 服从 正 态 分 布 ， 如 图 19-4 所 示 。 

对 于 一 个 处 于 在 控 状 态 的 过 程 ， 正 如 第 7 章 中 介绍 的 那样 ，x 的 抽样 分 布 可 以 用 来 确定 * 值 所 期 望 的 变异 性 。 
让 我 们 首先 简单 复习 一 下 x% 的 抽样 分 布 的 性 质 。 首 先 我 们 记得 ，x 的 期 望 值 或 均值 等 于 人, 人 是 在 生产 线 处 于 在 控 
状态 时 的 平均 填 装 重量 。 对 容量 为 n 的 样本 ，x 的 标准 差 (也 被 称 为 均值 的 标准 误差 ) ， 它 的 计算 公式 为 

xz- = 二 (19-1) 
Vn 

另外， 因为 填 装 重量 服从 正 态 分 布 ， 所 以 对 于 任何 容量 的 样本 ,x 的 抽样 分 布 也 服从 正 态 分 布 。 因 此 ,x 的 

抽样 分 布 服 从 均值 为 以 、 标 准 差 为 o; 的 正 态 分 布 。 如 图 19-5 所 示 。 





16.05 





过 程 均值 / E(x) 
图 19-4 谷物 纸箱 填 装 重量 的 正 态 分 布 图 19-5 对 于 nm 箱 填 装 的 一 个 样本 ， 重量 x 的 抽样 分 布 


如 果 过 程 处 于 在 控 状态 ，x 的 抽样 分 布 可 用 于 确定 什么 样 的 x 值 是 可 以 接受 的 。 质 量 控制 的 通常 做 法 是 将 位 
于 均值 上 下 3 个 标准 差 之 间 的 任何 * 值 都 认为 是 可 以 接受 的 。 回 顾 正 态 概率 分 布 的 学 习 ， 大 约 99.7% 的 正 态 分 布 
随机 变量 的 数值 位 于 其 均值 +3 个 标准 差 之 间 。 因 此 ， 如 果 x 的 数值 位 于 区 间 (ww -30;, 上 +3cz) 之 间 ， 我 们 将 
假设 过 程 处 于 在 控 状 态 。 因 此 ，x 控制 图 的 控制 限 如 下 。 















再 次 考虑 KJW 包装 公司 的 例子 ， 图 19-4 是 填 装 重量 的 过 程 分 布 ， 图 19-5 是 x 的 抽样 分 布 。 假 设 有 一 个 质量 
控制 检查 员 定 期 抽取 6 箱 作为 样本 ， 并 且 用 填 装 重量 的 样本 均值 来 确定 生产 过 程 是 处 于 在 控 状 态 还 是 失控 状态 。 
根据 式 (19-1) ， 我 们 得 到 均值 的 标准 误差 为 o; = ae/Vn =0,10/Y6 =0.04。 因 此 ， 在 过 程 均值 等 于 16. 05 的 情况 
下 ， 控 制 限 为 UCL =16. 05 +3 x0. 04 =16.17，LCL =1605 -3 x0.04 =15.93。 图 19-6 是 在 每 10 小 时 期 间 所 抽取 
的 10 个 样本 结果 的 控制 图 。 为 了 便于 阅读 ， 将 样本 标号 1 ~ 10 列 在 控制 图 的 横 轴 。 

注意 图 19-6 中 第 5 个 样本 的 均值 ， 有 强 有 力 的 证 据 表 明 ， 过 程 处 于 失控 状态 。 第 5 个 样本 的 均值 在 LCL 下 
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方 ， 存 在 产品 变异 性 的 可 指出 原因 ， 并 出 现 填 装 不 足 的 情形 。 因 此 ， 在 这 个 点 上 应 该 采取 纠正 措施 ， 以 使 过 程 重 













新 加 到 在 控 状 态 。x 控 制图 上 的 其 他 点 都 位 于 控制 上 下 限 之 间 的 事实 ， 表 明 纠正 措施 是 成 功 的 。 


16.20 | 
UCL= 16.17 





16.15 
16.10 
16.05 
16.00 





J 半 汪 光村 


LOL =15.93 
15.90 


样本 序号 
图 19-6 “谷物 箱 填 装 过 程 的 x 控制 图 


19. 2. 3 x 控制 图 : 过 程 的 均值 和 标准 差 未 知 

在 KJW 包装 公司 的 例子 中 ， 我 们 介绍 了 在 过 程 的 均值 和 标准 差 已 知 时 如 何 构 造 * 控 制图 。 在 大 多 数 情 况 下 ， 
必须 利用 样本 来 估计 过 程 的 均值 和 标准 差 ， 而 样本 是 从 在 控 状态 的 过 程 中 抽取 的 。 例 如 ，KJW 公司 在 控 状 态 的 10 
天 里 ， 每 天 早晨 和 下 午 各 抽取 箱 谷物 组 成 一 个 随机 样本 。 对 每 一 子 组 或 样本 ， 计 算 他 们 的 样本 均值 和 样本 标准 
差 。 然 后 用 样本 均值 和 样本 标准 差 的 总 平均 数 作 为 控制 图 的 过 程 均值 和 过 程 标准 差 。 © 

在 实践 中 ， 最 常见 的 是 用 极 差 代替 标准 差 来 监测 过 程 的 变异 性 ， 这 是 因为 极 差 容易 计 算 。 极 差 可 以 提供 过 程 
标准 差 很 好 的 估计 ， 因 此 ， 极 差 可 以 用 于 构造 x 控制 图 的 控制 上 限 和 控制 下 限 ， 而 且 计 算 量 很 少 。 为 了 阐明 控制 











图 的 构造 ， 让 我 们 考虑 Jensen 计算 机 用 品 公司 所 面临 的 问题 。 

Jensen 计算 机 用 品 供应 〈JCS) 公司 生产 直径 为 3.5 英寸 的 固态 硬盘 ， 并 刚刚 完成 对 生产 过 程 的 调整 使 其 处 
于 在 控 状 态 。 假 设 在 生产 过 程 开始 的 第 一 个 小 时 抽取 5 张 软盘 组 成 一 个 随机 样本 ， 在 第 二 个 小 时 抽取 5 张 软 盘 组 
成 一 个 随机 样本 ， 依 此 类 推 ， 直 到 抽取 了 20 个 样本 为 止 。 在 表 19-2 中 给 出 了 每 一 个 样本 的 软盘 直径 的 样本 均值 
志和 极 差 R。 

由 总 样本 均值 给 出 过 程 均值 w 的 估计 值 。 








。。。 表 19-2 Jensen 计算 机 用 品 公司 问题 的 数据 
样本 序号 观测 值 





样本 极 差 用 





加 ”对 过 程 的 均值 和 变异 性 两 方面 都 保持 控制 是 很 重要 的 。 


3. 306 5 
3.488 2 
3.4897 
B9153 


3. 508 6 
3.5085 


3.4898 


3. 5120 


3; 5144 
3. 488 4 
3.4995 
3.4989 


3. 500.9 
3. 525 0 


3.5130 
3.4900 


3. 503 0 
3. 503 1 
3.4969 
3. 483 7 


3. 506 5 
3. 5026 
3. 4978 
3.5000 


0. 013 5 

0. 036 8 

0.0233 
0.031 6 
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( 续 ) 
样本 序号 观测 什 样本 均值 ”样本 极 差 月 

5 3. 505 9 3.5113 3. 501 1 3.4773 3.4801 3. 495 ] 0.0340 
6 3.4977 3. 496 1 3.5050 3. 5014 3. 506 0 3. 501 2 0. 0099 
了 3.4910 3.4913 3.4976 3.483 1 3. 5044 3. 493 5 0. 021 3 
8 3.499 1 3.485 3 3,4830 3. 508 3 3. 509 4 3.4970 0.0264 
9 3. 509.9 3.5162 3.5228 3.495 8 3. 500 4 3.5090 0.0270 
10 3.4880 3. 5015 3. 509 4 3.5102 3.5146 3.504 7 0.0266 
11 3.4881 3.4887 3.5141 3. 5175 3.4863 3. 498 9 0.0312 
12 3. 504 3 3.4867 3.494 6 3. 5018 3.4784 3. 493 2 0.025 9 
13 3.504 3 3.4769 3.4944 3.5014 3.4904 3. 493 5 0.0274 
14 3. 500 4 3. 503 0 3. 508 2 3. 504 5 3.523 4 3.5079 0.023 0 
15 3.4846 3. 493 8 3. 506 5 3. 508 9 3.501 1 3. 499 0 0.024 3 
16 3.5145 3. 483 2 3.5188 3. 4935 3, 4989 3. 501 8 0.0356 
17 3. 5004 3. 504 2 3.495 4 3. 502.0 3.4889 3. 498 2 0.0153 
18 3.4959 3. 482 3 3.496 4 3. 508 2 3.487 1 3. 4940 0.0259 
19 3.4878 3. 486 4 3.4960 3, 5070 3. 498 4 3. 495 1 0.0206 
20 3.4969 3, 514 4 3.505 3 3. 498 5 3. 488 5 3. 5007 0.0259 


对 表 19-2 的 JCS 数据 ， 总 样本 均值 为 =3.499 5。 这 个 数值 将 作为 控制 图 的 中 心 线 。 每 一 个 样本 的 极 差 玉 ， 
是 每 一 个 样本 的 最 大 值 与 最 小 值 之 差 。 因 此 个 样本 的 平均 极 差 计算 公式 如 下 。 





对 表 19-2 中 的 JCS 数据 ,平均 极 差 为 R=0.025 3。 
前 面 我 们 已 经 表明 ,x 控制 图 的 控制 上 下 限 是 
区 十 3 万 (19-6) 
因此 ， 为 了 构造 了 控制 图 的 控制 限 ， 我 们 需要 估计 过 程 的 均值 上 和 标准 差 r, 人 的 估计 是 3，o 的 估计 可 以 使 用 极 
差 数 据 建立 。° 
已 经 证 明 : 过 程 标准 差 er 的 一 个 估计 量 为 平均 极 差 除 以 d,，d, 是 一 个 依赖 于 样本 容 
0 的 估计 量 = 吉 
在 表 19-3《 美 国 检验 与 材料 学 会 数据 描述 和 控制 图 分 析 手 册 》 (Americon Social for Testing 
on Presentation of Data and Control Chart Analysis) 给 出 的 d, 的 数值 。 例 如 ， 当 n=5 时 ， ee =2.326 ， 因 此 zz 的 估计 
值 为 平均 极 差 除 以 2;326。 如 果 我 们 将 r=R/d; (19-6); 则 到 控制 图 的 控制 限 可 以 写 为 





的 常数 。 即 








无 士 3 区 R 二 元 十 4) 尽 (19-8 ) 
注意 ，4, =3/(d;Wn) 是 一 个 仪 依赖 于 样本 容量 的 常数 。 表 19-3 中 给 出 4 的 数值 。 对 n=5，A4, =0.577。 因 
此 ,zx 控制 图 的 控制 限 为 


3.499 5 +0.577 x 0.0253 = 3.4995 +0.0146 


日 、 总 样本 均值 * 给 出 的 估计 值 ， 样 本 极 差 用 来 建立 a 的 估计 。 
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因此 ，UCL =3. 514，LCL =3. 485。 
表 19-3 XX 和 月 控制 图 的 因子 





样本 容量 n 人 A ds Das 也 4 
2 1. 128 1. 88 0. 853 0 3. 267 
3 1. 693 1. 023 0. 888 0 2. 574 
4 2.059 0, 729 0. 880 0 2. 282 
> 2. 326 0. 577 0. 864 0 2. 114 
6 2, 534 0, 483 0. 848 0 2. 004 
7 2.704 0. 419 0. 833 0.076 1. 924 
8 2. 847 0. 373 0. 820 0. 136 1. 864 
9 2.97 0. 337 0. 808 0. 184 1. 816 
10 3,078 0. 308 0. 797 0. 223 1 FY 
11 S513 0. 285 0. 787 0. 256 1. 744 
12 3. 258 0. 266 0. 778 0. 283 may 
13 3.336 0. 249 0. 770 0. 307 1. 693 
14 3.407 0. 235 0. 763 0. 328 1.672 
15 3.472 0. 223 0. 756 0. 347 1. 653 
16 3:532 0. 212 0. 750 0. 363 1.637 
17 3. 588 0. 203 0. 744 0.378 1. 622 
18 3.64 0. 194 0. 739 0. 391 1. 60%8 
19 3. 689 0. 187 0. 734 0. 403 1.597 
20 3. 733 0. 18 0. 729 0.415 1, 585 
21 3. 778 0. 173 0. 724 0. 425 1 .3 五 
22 3. 819 0. 167 0. 720 0. 434 1. 566 
23 3. 858 0; 162 0.716 0. 443 1. 557 
24 3. 895 0. 157 0.712 0.451 1, 548 
25 3,931 0. 153 0. 708 0.459 1. 541 





资料 来 源 ，Adapted from Table 27 of ASTM STP 15D, ASTM Manudl on Presentation of Data and Control Chart Analysis, Copyright ASTM Interna- 
tional ，100 Barr Harbor Drive, West Conshohocken, PAl19428, 


图 19-7 是 Jensen 计算 机 用 品 公司 问题 的 x 控制 图 。 我 们 用 表 19-2 中 的 数据 和 StatTools*X/R Chart 程序 来 构造 
控制 图 。 中 心 线 为 总 样本 均值 x =3. 499 5， 控 制 上 限 (UCL) 为 3.514， 控制 下 限 (LCL) 为 3.485。x 控制 图 显 
示 了 20 个 样本 均值 随时 间 变 动 的 散布 情况 。 由 于 所 有 20 个 样本 均值 都 在 控制 限 内 ， 我 们 确认 ， 抽 样 期 间 过 程 的 
均值 处 于 在 控 状 态 。 


3.515 UCL=3.514 
3.505 
过 
3 =3.499 5 
i 
3.485 ELCLE3.485 





CC 20 


10 
样本 序号 
19-7 Jensen 计算 机 用 品 问 题 的 x 控制 图 


日 在 本 章 的 附录 中 ， 我 们 演示 如 何 利用 StatTools 构造 * 和 及 控制 图 。 
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19.2.4 ”只 控制 图 


现在 让 我 们 考虑 可 以 用 来 控制 一 个 过 程 变异 性 的 极 差 控制 图 〈R 控制 图 )。 为 了 构造 尽 控制 图 ， 我 们 需要 将 
样本 的 极 差 看 作 一 个 有 自己 的 均值 和 标准 差 的 随机 变量 。 平 均 极 差 员 给 出 了 这 个 随机 变量 均值 的 一 个 估计 值 。 进 
一 步 ， 可 以 证 明 ， 极 差 标 准 差 的 估计 是 


Or = ds rr (19-9) 
式 中 ,dd 和 d, 是 依赖 于 样本 容量 的 常数 ， 表 19-3 给 出 了 d, 和 的 数值 。 于 是 ，R 控制 图 的 UCL 是 
二 二 闫 一 一 d, 
R+364 = R(1+3) (19-10) 
LCL 是 
a 于 i d; 
R30r = R(1 -3 (19-11) 
如 果 我 们 令 
二 + 3 时 (19-12) 
户 =1 -要 到 (19-13) 
我 们 可 以 将 控制 图 的 控制 限 写 为 | 
Hl (19-14) 
LCL = RD, (19-15) 


表 19-3 也 给 出 了 六 和 DD, 的 数值 。 注 意 , 对 于 n=5， 有 D;=0，D, =2.114。 因 此 ， 根据 请 =0.025 3， 控 制 
限 是 
UCL= 0;0253 x2.114 = 0.053 
LCL= 0.025 3x%0 = 0 
”图 19-8 是 Jensen 计算 机 用 品 问题 的 尽 控 制图。 我 们 利用 表 19-2 中 的 数据 和 StatTools*X/R Chart 程序 来 构造 控 
制图 ， 控 制图 的 中 心 线 是 20 个 样本 极 差 的 总 平均 数 尺 =0.0253。UCL 为 0.053 ，LCL 为 0.000。 玉 控制 图 表示 了 





20 个 样本 极 差 随时 间 变动 的 散布 情况 。 因 为 所 有 20 个 样本 的 极 差 都 在 控制 限 之 内 ， 我 们 确定 ， 抽 样 期 间 过 程 的 
变异 性 处 于 在 控 状态 S。 
0.06 
0.05 UCL=0.053 
0.04 
归 00 Ml 
R=0.025 3 
糙 0.02 : 


0.01 
0.00 





LCL=0.000 
5 15 20 
样本 序号 
19-8 Jensen 计算 机 用 品 问题 的 RR 控 制图 


唱 如 果 只 控制 图 显示 过 程 处 于 失控 状态 ， 将 无 法 解释 控制 图 ， 直 到 尺 控 制图 表明 过 程 的 变 蜡 性 处 于 在 控 状 态 。 
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19. 2. 5 _p 控制 图 

现在 让 我 们 考虑 ， 通 过 项 目 是 否 有 缺陷 来 度量 产品 质量 的 情况 。 以 样本 中 发 现 的 有 缺陷 项 目的 比例 5 为 依 
据 ， 来 确定 继续 还 是 调整 生产 过 程 。 利 用 有 缺陷 项 目 比 例 的 数据 构造 的 控制 图 称 为 p 控制 图 。。 

为 了 说 明 控制 图 的 结构 ， 让 我 们 考虑 邮局 使 用 的 自动 邮件 分 拣 机 的 情况 。 这 些 自动 化 机 器 扫描 邮件 上 的 邮 
政 编码 ， 然 后 将 它们 分 送 到 合适 的 邮递 线路 上 去 。 即 使 机 器 运转 正常 ， 依 然 有 一 些 邮 件 会 被 分 送 到 错误 的 邮递 线 
路 上 去 。 假 设 当 机 器 运转 正常 时 ， 或 机 器 处 于 在 控 状态 时 ， 有 3% 的 邮件 被 误 投 。 因 此 ， 在 过 程 处 于 在 控 状 态 时 ， 
错误 投 弟 的 比例 p 是 0.03。 

对 于 一 个 处 于 在 控 状 态 的 过 程 ， 正 如 第 7 章 介 绍 的 那样 ; 的 抽样 分 布 可 以 用 来 确定 bp 值 所 期 望 的 变异 性 。 
我 们 记得 , 5 的 期 望 值 或 均值 等 于 p， 即 在 过 程 处 于 在 控 状态 时 缺陷 项 目的 比例 。 对 于 容量 为 n 的 样本 ,，F 的 标准 
差 〈 又 称 为 比例 的 标准 误差 ) 计算 公式 是 


二 A (19-16) 


我 们 在 第 7 章 还 了 解 到 ， 当 样本 容量 充分 大 时 ,5 的 抽样 
分 布 可 以 近似 服从 正太 分布。 对 于 万 ， 当 下 面 两 个 条 件 得 到 满 
足 时 ， 就 可 以 认为 样本 容量 充分 大 。 

np 宇 5 n(1—-p) 宇 5 

因此 ， 当 样本 容量 充分 大 时 ,5 的 抽样 分 布 可 以 近似 服从 
均值 为 p， 标 准 差 为 ;的 正 态 分 布 。 这 个 分 布 如 图 19-9 所 示 。 

为 了 建立 p 控制 图 的 控制 限 ， 我 们 遵循 建立 控制 图 的 控 
制 限 的 相同 步 又， 即 在 过 程 处 于 在 控 状 态 时 ， 控 制图 的 控制 限 : | 
设置 在 缺陷 项 目 比 例 的 上 下 3 个 标准 差 或 标准 误差 处 。 于 是 ， 图 19-? 了 的 搞 作 全 寺 
我 们 得 到 如 下 的 控制 限 。 





E(p) 





人 
re 


2 MW WR \ 
Os 一 200 二 0. 012 1 


因此 ， 控 制 限 为 UCL =0. 03 +3 x0.012 1=0.0663，LCL =0.03 -3 x0.0121 = -0.006 3。 每 当 式 (19-18) 给 出 
LCL 为 负 值 时 ， 在 控制 图 上 令 LCL =0。 

图 19-10 是 邮件 分 拣 过 程 的 控制 图 。 所 标 出 的 点 是 从 分 拣 过 程 抽取 的 邮件 样本 中 发 现 的 样本 缺陷 比例 。 因 为 
所 有 的 点 都 在 控制 限 之 内 ， 因 此 没有 任何 证 据 表明 分 拱 过 程 处 于 失控 状态 。 

对 于 一 个 处 于 在 控 状 态 的 过 程 ， 如 果 缺 陷 项 目的 比例 未 知 ， 则 我 们 首先 应 该 用 样本 数据 来 估计 它 。 例 如 ， 假 
设 从 一 个 处 于 在 控 状态 的 过 程 中 抽取 个 容量 都 为 n 的 不 同样 本 。 然 后 确定 每 个 样本 缺陷 项 目的 比例 。 将 所 有 搜 
集 到 的 数据 看 作 一 个 大 样本 ,我们 计算 所 有 数据 的 缺陷 项 目的 比例 ; 然后 用 这 个 数据 估计 p， 即 在 过 程 处 于 在 控 
状态 时 观测 到 的 有 缺陷 项 目的 比例 。 注 意 , p 的 这 个 估计 值 也 使 我 们 能 估计 比例 的 标准 误差 ; 从 而 可 以 建立 控制 
下 上、 下 本 


wo 


日 ”以 说 明 存 在 缺陷 或 者 缺陷 数量 为 依据 的 控制 图 ， 称 为 品质 控制 图 。p 控制 图 是 一 个 品质 控制 图 。 
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19-10 ”邮件 分 撕 过 程 中 的 有 缺陷 比例 的 p 控制 图 


19. 2. 6 np 控制 图 

np 控制 图 是 针对 样本 中 有 缺陷 项 目的 个 数 而 构造 的 控制 图 。 在 这 种 情况 下 ，n 为 样本 容量 ,p 为 当 过 程 处 于 
在 控 状 态 时 所 观测 到 的 有 缺陷 项 目的 概率 。 当 样本 容量 充分 大 时 ， 即 np 三 5 并 且 na(1 -p) 宇 5， 在 一 个 容量 为 n 的 
样本 中 观测 到 的 有 缺陷 项 目 数 的 分 布 可 以 近似 服从 均值 为 mp， 标准 差 为 Vnp(1 -p) 的 正 态 分 布 。 因 此 ， 对 邮件 分 
拣 的 例子 , m =200, p=0.03， 在 一 个 由 200 个 邮件 组 成 样本 中 ， 观 测 到 有 缺陷 项 目 数 可 以 近似 服从 均值 为 200 x 
0. 03 =6， 标 准 差 为 V200 x0. 03 x0.97 =2. 412 5 的 正 态 分 布 。 

当 过 程 处 于 在 控 状 态 时 ，np 控制 图 的 控制 限 为 观测 到 的 有 缺陷 项 目的 期 望 数 的 上 下 3 个 标准 差 ， 于 是 ,我 们 
可 以 得 到 如 下 的 控制 限 。 








过 程 的 例子 , p =0.03, n=200， 控制 限 是 UCL =6 +3 x2.4125 = 13.2375 Leb =643 S25 = 


_1.2375, 当 ICL 为 负 值 时 ， 在 控制 图 上 令 LCL =0。 因 此 ， 如 果 被 投 送 到 错误 线路 的 邮件 超过 13 件 时 ， 我 们 可 
以 断定 ， 过 程 处 于 失控 状态 。 

mp 控制 图 提供 的 信息 与 p 控制 图 所 提供 的 信息 相同 。 唯 一 的 区 别 是 ，np 控制 图 是 观测 到 的 有 缺陷 项 目 数 的 分 
布 图 ， 而 p 控制 图 是 观测 到 的 有 缺陷 项 目 比例 的 分 布 图 。 因 此 ， 如 果 我 们 以 控制 图 为 依据 做 出 某 个 特定 过 程 处 
于 失控 状态 的 结论 ， 则 我 们 也 能 以 np 控制 图 为 依据 做 出 该 过 程 处 于 失控 状态 的 结论 。 





塌 让 :六 


恨 据 在 控制 图 中 点 的 位 置 和 分 布 模式 我 们 可 以 确定 一 个 过 程 是 否 处 于 统计 控制 状态 ， 而 且 错 判 的 概率 很 
小 。 过 程 有 可 能 处 于 失控 状态 的 主要 标志 是 数据 点 落 在 控制 限 之 外 ， 例如 图 19-6 中 的 第 5 个 点 。 发 现 这 样 的 点 是 
过 程 处 于 失控 状态 的 统计 证 据 ， 在 这 种 情况 下 ， 应 该 尽 可 能 地 采取 纠正 措施 。 

除了 数据 点 位 于 控制 限 之 外 ， 某 些 在 控制 限 之 内 的 数据 点 的 分 布 模式 也 可 能 是 质量 控制 问题 的 预警 信号 。 例 
如 ， 假 设 所 有 的 数据 点 都 在 控制 限 之 内 ， 但 是 大 多 数 的 点 都 位 于 中 心 线 的 一 侧 。 这 种 分 布 模式 可 能 说 明 ， 或 者 设 
备 出 现 了 问题 ,或 者 原材料 有 了 变化 ,或 者 出 现 了 其 他 质量 变化 的 可 指出 原因 。 我 们 应 该 对 生产 过 程 进行 仔细 检 
查 以 确定 质量 是 否 发 生 了 变化 。 

在 控制 图 看 到 的 另 一 种 模式 是 随 着 时 间 的 推移 而 发 生 的 逐渐 变化 或 趋势 。 例 如 ， 由 于 工具 的 磨损 ， 使 制造 零 
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件 的 尺寸 逐渐 偏离 设计 的 水 平 ; 温度 或 湿度 的 逐渐 变化 ; 设备 的 整体 老化 ; 污 拍 的 堆积 或 者 操作 人 员 的 疲劳 等 ， 
这 些 也 可 能 使 控制 图 出 现 一 个 趋势 模式 。 若 连续 6 ~ 7 个 数据 点 呈现 单调 上 升 或 者 单调 下 降 的 趋势 ， 就 应 该 引起 
注意 ， 即 使 这 些 数据 点 都 在 控制 限 之 内 ”。 当 这 种 模式 出 现时 ， 就 应 该 检查 生产 过 程 以 防备 质量 上 可 能 的 变化 或 
转变 ， 并 采取 必要 的 纠正 措施 。 


注释 和 评论 


1. 因为 x 控制 图 的 控制 限 依赖 于 平均 极 差 的 数值 ， 所 以 这 些 控 制 限 没 有 太 多 的 意义 ， 除 非 过 程 的 变异 性 处 于 
在 控 状态 a 在 实践 中 ， 通 常 在 构造 x 控制 图 之 前 构造 尺 控 制图 ; 如 果 民 控制 图 表明 ， 过 程 的 变异 性 处 于 在 
控 状 态 ; 然后 构造 控制 图 。StatTools X/R Chart 选项 可 以 同时 给 出 x 控制 图 和 尺 控 制图 ， 本 章 附录 中 描述 
了 这 一 过 程 的 步骤 。 

2. 让 控 制图 根据 有 缺陷 的 数量 来 监控 过 程 。 摩 托 罗 拉 的 六 西格玛 质量 水 平 设 置 的 生产 目标 是 : 每 百 万 次 操 
作 缺 陷 不 超过 3.4 次 ; 这 个 目标 意味 着 p=0.000 003 4。 





方法 均值 和 过 程 标准 差 为 多 少 ? 
2. 从 一 个 处 于 在 控 状 态 的 过 程 中 抽取 容量 为 5 的 25 个 8- 在 生产 过 程 正常 运转 或 处 于 在 控 状 态 的 几 个 星期 


样本 。 所 有 搜集 到 的 数据 总 和 为 677.5 磅 。 

a 当 过 程 处 于 在 控 状 态 时 ， 过 程 均 值 的 一 个 估计 值 
( 磅 /单位 ) 是 多 少 ? 

b， 如 果 样 本 容量 为 5， 构 造 这 个 过 程 的 控制 图 。 
假设 当 该 过 程 处 于 在 控 状 态 时 ， 过 程 的 标准 差 为 
0. 05 ， 过 程 的 均值 为 (a) 中 的 估计 值 。 


女 4. 从 一 个 过 程 中 抽取 20 个 样本 ， 每 个 样本 的 容量 都 为 


8， 结 果 为 =28.5,， RR=1.6。 计 算 这 个 过 程 的 * 控 


中 ， 为 检测 断裂 强度 抽取 了 20 个 样本 ， 每 个 样本 有 

150 包 合 成 纤维 网 球 线 。 在 检测 的 3 000 包 中 ， 有 

141 包 未 能 符合 制造 商 规 格 。 

a 当 系 统 处 于 在 控 状 态 时 ， 过 程 的 有 缺陷 比例 的 估 
计 值 是 多 少 ? 

b, 计算 pp 控制 图 的 上 下 控制 限 。 

c， 如 果 检 验 了 一 个 150 色 网 球 线 的 新 样本 ， 其 中 12 
包 有 和 缺陷， 根据 (b) 的 结果 ， 应 该 做 出 什么 结 


制图 和 尺 控 制图 的 上 下 控制 限 。 论 ? 在 这 种 情况 下 ， 是 否 出 现 可 指出 原因 ? 

应 用 d. 计算 tp 控制 图 的 上 下 控制 限 。 

6. 一 个 质量 控制 过 程 检 测 每 箱 洗涤 剂 的 重量 。 控 制 限 e. 利用 (d) 中 的 结果 回答 (ce) 中 的 问题 。 
设 为 UCL =20. 12 瘟 司 ，LCL = 19.90 疼 司 。 对 抽样 f 在 这 种 情况 下 ， 哪 一 个 将 是 首选 的 控制 图 ? 请 
和 检测 过 程 ， 样 本 容量 为 5。 这 个 制造 过 程 的 过 程 解释 。 


19. 3 接受 抽样 


在 接受 抽样 中， 我 们 感 兴趣 的 项 目 可 能 是 正在 进货 的 原材料 或 外 购 的 零 部 件 ， 以 及 来 自 总 装 线 的 制 成 品 。 
假设 我 们 希望 以 指定 产品 的 质量 特性 为 依据 ， 决 定 是 否 接受 或 拒绝 一 组 产品 项 目 。 在 质量 控制 术语 中 ， 一 组 项 目 
称 为 一 批 〈lot) ， 接 受 抽样 (acceptance sampling) 是 一 种 统计 方法 ， 该 方法 能 使 我 们 将 接受 -拒绝 的 决定 建立 在 
检测 从 一 批 中 抽取 项 目 样本 的 基础 上 。 

图 19-11 是 接受 抽样 的 一 般 步骤 。 在 收 到 一 批 产 品 之 后 ， 从 中 抽取 一 个 项 目 样 本 进行 检测 。 将 抽 测 的 结果 与 
指定 的 质量 特性 进行 比较 。 如 果 质 量 特性 得 到 满足 ， 则 接受 这 批 产品 ， 并 送 往 生产 线 或 交付 给 客户 。 如 果 拒 绝 这 


日 、 即 使 所 有 的 数据 点 都 在 上 下 控制 限 之 内 ， 过 程 也 有 可 能 出 于 失控 状态 。 样 本 数据 点 的 趋势 或 在 中 心 线 上 下 异常 长 期 运动 ， 也 可 能 显 
示 过 程 处 于 失控 状态 。 

加 “接受 抽样 比 百分之百 检测 有 以 下 优点 : D 通 常 费用 较 少 : 四 由 于 较 少 地 搬运 和 检验 ， 因 而 产品 损坏 较 少 ， 加 需要 较 少 的 检验 人 员 ， 
@ 如 果 必 须要 使 用 破坏 性 检验 ， 接 受 抽 样 是 唯一 可 行 的 方法 。 
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批 产品 ,管理 人 员 必 须 作 出 如 何 处 置 这 批 产品 的 决定 。 在 一 些 情 况 下 ,可 能 决定 保留 这 批 产品 ， 但 是 应 该 剔除 无 
法 接受 的 或 者 不 符合 规定 的 项 目 ; 在 另 一 些 情况 下 ， 可 能 将 这 批 产 
品 退回 给 供应 商 ， 且 所 有 费用 均 由 供应 商 支 付 ， 额 外 的 工作 量 和 费 
用 记 在 供应 商 名 下 ， 将 激励 供应 商 提供 高 质量 的 产品 。 最 后 ， 如 有 
拒绝 批 次 中 有 制 成 品 ， 则 这 些 制 成 品 必 须 报 废 或 者 返工 ， 以 达到 可 
接受 的 质量 标准 。 
接受 抽样 统计 程序 的 依据 是 第 9 章 介 绍 的 假设 检验 方法 。 原 假 
设 与 备 择 假设 的 陈述 如 下 。 
Hi :高 质量 批 
H,: 低 质量 批 
表 19-4 是 假设 检验 程序 的 结果 。 注 意 ， 正 确 的 决定 对 应 接受 一 
个 高 质量 批 ， 或 者 拒绝 一 个 低 质量 批 。 但 是 ， 同 其 他 假设 检验 程序 一 熏 一 > -一 
一 样 ， 我 们 需要 注意 犯 第 一 类 错误 〈 拒 绝 一 个 高 质量 批 ) 或 第 二 类 图 19-11 ”接受 抽样 程序 
错误 (接受 一 个 低 质量 批 ) 的 可 能 性 。 





表 19-4 接受 抽样 的 结果 
批 的 状态 


Ho 为 真 Ho 为 伪 
高 质量 批 低 质 量 批 
接受 该 批 正确 结论 第 二 类 铺 误 
决定 (接受 一 个 低 质量 批 ) 
拒绝 该 批 第 一 类 错误 正确 结论 


(拒绝 一 个 高 质量 批 ) 


第 一 类 错误 的 概率 对 批 产品 的 生产 者 造成 了 风险 ， 因 此 被 称 为 生产 者 风险 (producer’s risk)。 例 如 ,生产 者 
风险 为 0.05， 这 意味 着 被 错误 地 拒绝 一 个 高 质量 批 的 可 能 性 为 5% 。 另 一 方面 ， 第 二 类 错误 的 概率 对 批 产品 的 消 
费 者 造成 了 风险 ， 因 此 被 称 为 消费 者 风险 〈consumer s risk) 。 例 如 ， 消 费 者 风险 为 0.10， 这 意味 着 错误 地 接受 一 
个 低 质 量 批 的 可 能 性 为 10% ， 并 且 这 个 低 质 量 批 被 用 于 生产 或 卖 给 消费 者 。 接 受 抽样 程序 的 设计 者 可 以 控制 生产 
者 风险 和 消费 者 风险 的 规定 值 。 为 了 说 明 如 何 确定 风险 值 ， 我 们 考虑 KALI 有 限 公司 所 面临 的 问题 。 


19. 3. 1 ”KALI 有 限 公 司 : 接受 抽样 的 实例 

KALI 有 限 公司 是 一 家 生产 家 电 的 公司 ， 该 公司 在 市 场 上 销售 各 种 名 称 的 产品 。 但 是 ，KALI 并 不 能 制造 其 产 
品 所 用 的 每 一 个 部 件 ， 因 此 ， 需 要 直接 从 供应 商 处 购买 一 些 部 件 。 例 如 ，KALI 购买 的 一 个 部 件 是 用 在 家 庭 空调 
器 上 的 超载 保护 器 ， 它 是 一 种 保护 装置 ， 能 在 空调 融 过 热 时 关闭 压缩 机 。 如 果 超 载 保 护 器 运 转 不 正常 ， 则 空调 压 
缩 机 有 可 能 受到 严重 损坏 。 因 此 ，KALI 很 关注 超载 保护 带 的 质量 。 保 证 质量 的 一 种 方法 是 检测 所 收 到 的 每 一 个 
部 件 ， 这 种 方法 被 称 为 100% 检验 法 。 但 是 ， 为 了 确定 一 个 超载 保护 器 正常 运行 ， 必 须 对 部 件 进 行 长 时 间 的 、 费 
用 昂贵 的 检验 ,而且 KALI 不 可 能 检测 收 到 的 每 一 个 超载 保护 器 。 

作为 替代 方法 ，KALI 利用 接受 抽样 方案 来 检测 超载 保护 器 的 质量 。 接 受 抽样 方案 要 求 KALI 的 质量 控制 检查 
员 从 每 批 产 品 中 抽取 样本 并 进行 检验 。 如 果 在 样本 中 发 现 极 少 有 缺陷 的 产品 , 则 该 批 可 能 是 高 质量 ， 应 该 接收 。 
但 是 ， 如 果 在 样本 中 发 现 大 量 有 缺陷 的 产品 ， 则 该 批 可 能 是 低 质量 ， 应 该 拒 收 。 

一 个 接受 抽样 方案 包含 样本 容量 n 和 接收 准则 cs。 接收 准则 (acceptance criterion) 是 在 样本 中 发 现 有 缺陷 项 
目的 最 大 数量 ， 并 且 仍然 可 以 接收 该 批 。 例 如 ， 对 KALI 公司 的 问题 ， 我 们 假设 从 装运 的 产品 或 批 中 每 次 抽取 15 
个 项 目 组 威 样本 。 此 外 ， 假 设 质量 控制 人 员 表 示 ， 仅 在 没有 发 现 有 缺陷 项 目的 情况 下 才 接 收 该 批 。 在 这 种 情况 
下 ， 由 质量 控制 人 员 建 立 的 接受 抽样 方案 为 n=15, c=0。 

这 个 接受 抽样 方案 对 质量 控制 检查 员 来 说 是 很 容易 实施 的 。 质 检 员 只 需要 抽取 15 个 项 目 组 成 样本 ， 并 对 每 
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一 个 项 目 进行 检验 ， 并 根据 下 面 的 决策 规则 作出 结论 。 

。 如 果 没 有 发 现 有 缺陷 项 目 ， 则 接收 该 批 。 

。 如 果 发 现 一 个 或 一 个 以 上 有 缺陷 项 目 ， 则 拒 收 该 批 。 

在 实施 接受 抽样 方案 之 前 ， 质 量 控制 人 员 希 望 评估 该 方案 的 风险 或 错误 概率 。 只 有 生产 者 风险 (第 一 类 错 
误 ) 和 消费 者 风险 (第 二 类 错误 ) 都 控制 在 一 个 合理 的 水 平时 ， 这 个 方案 才能 得 以 实施 。 


19. 3. 2 计算 接收 一 批 的 概率 


分 析 生 产 者 风险 和 消费 者 风险 的 关键 是 “如 果 ……， 则 ……” 类 型 的 分 析 ， 即 我 们 将 假设 ,已 知 一 批 中 有 和 缺 
陷 项 目的 百分比 ， 对 于 给 定 的 抽样 方案 ,计算 接收 这 批 的 概率 。 通 过 改变 假设 有 缺陷 项 目的 百分比 ， 我 们 可 以 检 
验 抽样 方案 关于 两 类 风险 的 影响 。 


假设 我 们 已 经 收 到 大 批量 的 超载 保护 器 ， 且 其 中 5% 的 超载 保护 器 有 缺陷 。 对 有 5% 缺陷 项 目的 装运 产品 或 
批 , n=15, c=0 的 抽样 方案 将 使 我 们 接收 这 批 的 概率 是 多 天 ?因为 每 个 被 检测 的 超载 保护 器 ， 要 么 有 缺陷 ， 要 
么 没有 缺陷 ， 而 且 批 的 容量 很 大 。 因 此 ， 对 于 容量 为 15 的 样本 ， 有 缺陷 项 目 数 服 克 一 个 二 项 分 布 。 二 项 概率 函 
数 在 第 5 章 中 介绍 过 ， 其 形式 如 下 。 
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对 KALL 的 接受 抽样 方案 , 上 =15。 于 是 ， 对 有 人 缺陷 项 目 为 5% (p=0.05) 的 一 批 ， 我 们 有 
Fmy 训 TEST 05*(1 - 0.05) 05) (19-22 
利用 式 (19-22)，f(0) 为 0 个 超载 保护 器 有 缺陷 ， 并 上 且 接 收 该 批 的 概率 。 在 式 (19-22) 中 ， 由 于 0! =1， 
此 有 | 


151 6 15-0 ist 6 15 15 
f£(0) = 00510. 05 (dh = TET 0.95" = 0:95” 三 0.463 3 
我 们 现在 知道 ， 对 n=15,，c=0 的 抽样 方案 ， 有 缺陷 项 目 为 5 多 的 一 批 ， 接 收 的 概率 为 0.463 3。 因 此 ， 有 缺 
陷 项 目 为 5% 的 一 批 ， 拒 收 的 概率 相应 的 为 1 -0. 463 3 =0.5367。 表 19-5 对 KALI 问题 x=15, c =0 的 
可 以 使 用 Excel 的 BINOM. DIST 函数 ,使 这 些 二 项 概率 的 计算 接收 一 批 的 概率 


简单 化 。 利 用 这 个 函数 ， 我 们 能 确定 ， 如 果 有 缺陷 项 目 为 10 儿 ;对 批 中 有 缺陷 的 百分比 接收 一 批 的 概率 


于 n=15, c=0 的 抽样 方案 ， 接 收 这 批 的 概率 为 0. 205 9。 如 果 有 缺 和 
陷 项 目 分 别 为 1% ，2% ，3% 于 对 于 m=15，c=0- 的 抽样 方案 ， 0.6333 
接收 这 批 的 概率 汇总 如 表 19-5 所 示 。 4 0.542 1 

根据 表 19-5 的 概率 ， 将 接收 一 批 的 概率 和 批 中 有 缺陷 项 目的 百 5 0.4633 
分 比 绘 成 图 19-12。 这 个 图 形 或 曲线 ， 被 称 为 mn=15，c =0 接受 抽样 葛 Wa 
方案 的 抽样 特性 曲线 (operating characteristic，0C)。 站 和 

或 许 我 们 应 该 考虑 其 他 抽样 方案 ， 它 们 有 不 同 的 样本 容量 ”或 je 不 


不 同 的 接收 准则 ce。 首先 考虑 样本 容量 仍 保持 15 不 变 ， 但 是 接收 准 

则 从 c=0 增加 为 c=1 的 情形 ， 即 如 果 在 样本 中 发 现 0 个 或 1 个 有 缺陷 部 件 ， 我们 将 接收 该 批 。 对 于 有 缺陷 项 目 
为 5% (p=0.05) 的 一 批 ， 可 以 利用 式 (19-21) 的 二 项 概率 函数 ， 或 Excel 的 BINOM. DIST 函数 ,计算 f(0) = 
0.4633,，f(1) =0.365 8。 因 此 ， 对 n=15, c=1 抽样 方案 ,接收 有 缺陷 项 目 为 5% 的 一 批 的 概率 为 0.463 3 + 
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0.3605 8 =0, 829 1 。 


0 5 10 15 20 25 
批 中 有 缺陷 的 百分比 


图 19-12 n=15, c=0 的 接受 抽样 方案 的 抽样 特性 曲线 
继续 这 样 的 计算 ， 我 们 得 到 图 19-13。 该 图 是 KALI 公司 问题 的 四 种 接受 抽样 方案 的 抽样 特性 曲线 。 分 别 考虑 
容量 为 15 和 20 的 样本 ， 我 们 注意 到 ， 无 论 批 中 有 人 缺陷 项 目的 比例 如 何 , =15，c =1 的 抽样 方案 给 出 接收 该 批 
的 概率 最 大 。n =20，*c =0 的 抽样 方案 给 出 接收 该 批 的 概率 最 小 ， 但 该 方案 也 给 出 了 拒绝 该 批 的 概率 最 大 。 





n=20, c=1 


0 5 10 15 20 一 
批 中 有 缺陷 的 百分比 


19-13 ”四 种 接受 抽样 方案 的 抽样 特性 曲线 


19. 3. 3 “选择 接受 抽样 方案 


现在 我 们 已 经 知道 如 何 使 用 二 项 分 布 ， 根 据 一 个 给 定 的 有 缺陷 项 目的 比例 来 计算 接收 一 批 的 概率 。 对 于 正在 
研究 的 应 用 ， 我 们 已 经 选 好 nw 和 的 数值 来 确定 所 需要 的 接受 抽样 方案 。 为 了 制定 这 个 方案 ,管理 人 员 必 须 对 批 
中 有 和 缺陷 项 目的 比例 指定 两 个 数值 。 一 个 数值 p。 用 于 控制 生产 者 风险 ; 男 一 个 数值 p, 用 于 控制 消费 者 风险 。 

我 们 使 用 如 下 记号 : 
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Qa 一 一 生产 者 风险 ; 拒 收 有 扇 陷 比 例 为 所 的 一 批 的 概率 
B 一 一 消费 者 风险 ;接收 有 缺陷 比例 为 志 的 一 批 的 概率 z 
假设 对 KALI 公司 的 问题 ， 管 理 人 员 规 定 Pe =0.03，P =0. 15。 从 图 19-14 的 n=15, c=0 的 抽样 特征 曲线 中 ， 
我 们 看 到 po =0. 03 给 出 的 生产 者 风险 大 约 为 1 -0.63 =0.37，P =0.15 给 出 的 消费 者 风险 大 约 似 为 0.09。 因 此 ， 
如 果 管 理 人 员 愿 意 承 受 拒 收 有 缺陷 项 目 比 例 为 3% 的 一 批 的 概率 为 0.37 (生产 者 风险 ) ， 同 时 承受 接收 有 缺陷 项 
目 比 例 为 15% 的 一 批 的 概率 为 0. 09 (消费 者 风险 )， 则 n=15, c=0 的 接受 抽样 方案 是 可 以 接受 的 。 





= 生产 者 风险 ( 犯 第 一 类 错误 的 概率 ) 
B= 消费 者 风险 ( 犯 第 二 类 错误 的 概率 ) 


Do 已 
批 中 有 缺陷 的 百分比 


图 19-14 n=15, c=0, ps =0.03，P, =0.15 的 抽样 特性 曲线 


但 是 , 假如 管理 人 员 要 求生 产 者 风险 a =0. 10， 消费 者 风险 B=0.19。 我 们 看 到 ，n =15，,，c =0 的 抽样 方案 有 
一 个 比 消费 者 预期 的 更 小 的 风险 ， 但 这 也 有 一 个 不 可 接受 的 大 的 生产 者 风险 。a =0.37 的 事实 表明 ， 当 一 批 只 有 
3% 的 项 目 有 缺陷 时 ， 错 误 地 拒 收 该 批 的 概率 为 37% 。 由 此 可 见 生 产 者 风险 过 高 ， 我 们 应 该 考虑 其 他 的 接受 抽样 
方案 。 

利用 m =0.03, a=0.10, p, =0.15 和 B=0.20, 图 19-13 表 明 n=20,， c=1 的 接受 抽样 方案 最 接近 于 同时 满 
足 生产 者 风险 和 消费 者 风险 的 需要 ”。 

正如 本 节 所 介绍 的 ， 在 决定 抽样 方案 时 ， 我 们 需要 结合 预期 的 生产 者 风险 和 消费 者 风险 ， 考 虑 一 些 计算 或 抽 
样 特性 曲线 。 幸 运 的 是 ， 我 们 已 经 出 版 了 一 些 抽 样 方案 表 。 例 如 ， 美 国 军 用 标准 表 (MIL-STD-105D ) ， 在 设计 接 
受 抽样 方案 时 提供 了 很 多 有 用 的 信息 。 列 在 本 书 参 考 文献 上 的 关于 质量 控制 的 较 高 级 的 教材 介绍 了 这 些 表 的 使 用 
方法 。 较 高 级 的 教材 也 讨论 了 抽样 成 本 在 确定 最 优 抽 样 方案 中 的 作用 。 


19. 3. 4 ”多 重 抽样 方案 


我 们 介绍 KALI 公司 问题 的 接受 抽样 程序 是 单 样本 方案 。 它 之 所 以 被 称 为 单 样 本 方案 ， 是 因为 仅仅 用 了 一 个 
样本 或 一 个 抽样 阶段 。 在 确定 了 样本 中 有 缺陷 部 件 的 个 数 后 ， 就 必须 做 出 接收 或 拒 收 该 批 的 结论 。 另 一 种 可 供 选 
择 的 抽样 方案 是 多 重 抽样 方案 ( multiple sampling plan) ， 它 涉及 两 个 或 多 个 抽样 阶段 。 在 每 一 个 阶段 有 3 种 可 能 
的 结论 : 停止 抽样 并 接收 该 批 、 停 止 抽样 并 拒 收 该 批 ， 或 者 继续 抽样 。 尽 管 这 些 做 法 比较 复杂 ， 但 是 对 于 同样 的 
a 和 6 的 概率 ， 多 重 抽样 方案 的 总 样本 容量 往往 比 单 样 本 抽样 方案 要 小 。 


日 本 节 后 的 练习 第 13 题 将 要 求 你 对 n=20，c =1 的 接受 抽样 方案 ,计算 生产 者 风险 和 消费 者 风险 。 
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图 19-15 是 两 阶段 或 双重 抽样 方案 的 流程 。 首 先 选择 mW 个 项 目 组 成 第 一 个 样本 ， 如 果 有 和 缺陷 部 件 的 数量 
x 三 c1 ， 则 接收 该 批 ; 如 果 x, 三 c; ， 则 拒 收 该 批 ; 如 果 % 介 于 cl 和 之 间 ( 即 c <x, <c,)， 则 选择 n, 个 项 目 组 
成 第 二 个 样本 。 由 第 一 个 样本 有 缺陷 部 件 的 数量 x, 和 第 二 个 样本 有 缺陷 部 件 的 数量 x%> ， 可 以 确定 有 人 缺陷 部 件 的 总 
数 2z +x。 如 果 2 +%* 三 c;:， 则 接收 该 批 ; 否则 拒 收 该 批 。 双 重 抽样 方案 的 建立 更 加 困难 ， 因 为 样本 容量 nn, 入， 
及 接收 准则 c,，c, 和 ec; 必须 同时 满足 生产 者 和 消费 者 所 预期 的 双重 风险 。 





图 19-15 两 阶段 接受 抽样 方案 


注释 和 评论 

1. 对 于 接受 抽样 ， 使 用 二 项 分 布 的 依据 是 假设 ， 批 的 容量 较 大 。 如 果 批 容量 较 小 ， 超 几何 分 布 是 合适 的 分 布 。 

2. 在 MIL-ST-105D 的 抽样 表 中 ，p 被 称 为 可 接受 质量 水 平 (AQL) 。 在 一 些 抽样 表 中 ，Pi 被 称 为 批 容许 转 陶 
百分数 (LTPD) 或 拒绝 质量 水 平 (RQL) 。 许 多 出 版 的 抽样 方案 也 使 用 了 一 些 质量 指数 ， 如 无 差异 质量 水 
平 (1QL) 和 平均 出 厂 质量 界限 (AOQL)。 在 本 书 参 考 文献 中 列 出 的 更 为 高 级 的 教材 给 出 了 这 些 质量 指数 
的 全 面 讨论 。 

3, 在 未 节 中 我 们 介绍 了 品质 抽样 方案 。 在 这 些 方案 中 ， 被 抽 中 的 每 一 个 项 目 分 为 有 缺陷 和 无 缺陷 。 在 变量 抽样 
方案 中 ， 我 们 抽取 一 个 样本 并 测量 它 的 质量 特性 。 例如， 对 黄金 珠宝 质量 的 检测 可 以 是 它 的 含金量 。 计 算 样 
本 统计 量 ， 例 如 样本 中 黄金 的 平均 含量 ， 并 将 它 与 一 个 允许 值 进行 比较 ， 来 确定 是 接受 还 是 拒 收 该 批 产品 。 
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方法 

六 10: 对 n=25,， c=0 的 接受 抽样 方案 ， 
为 2% 的 一 批 的 概率 。 如 果 缺 陷 率 为 6% ， 接 收 该 
批 的 概率 为 多 少 ? 

12. 对 n=20, c=1 的 接受 抽样 方案 ， 重 复 第 11 题 的 
计算 。 当 接收 准则 ec 的 数值 增加 时 ， 生 产 者 风险 会 
cn 


计算 接收 缺陷 率 


= 





本 章 我 们 讨论 了 统计 方法 如 何 用 来 帮助 进行 质量 控 
制 。 首 先 我 们 介绍 了 作为 图 示 法 的 x*，R, p 和 np 控制 图 
来 检测 生产 过 程 。 对 每 种 控制 图 确定 各 自 的 控制 限 ; 定 
期 抽取 样本 ， 并 将 数据 点 描绘 在 控制 图 上 。 当 数据 点 位 
于 控制 限 之 外 时 ， 则 表明 过 程 处 于 失控 状态 ， 必 须 采 取 
纠正 措施 。 在 控制 限 之 内 的 数据 点 的 模式 ， 也 能 指出 潜 


应 用 


14. 为 了 检验 刚刚 装运 的 原材料 ， 制 造 商 正 在 考虑 容 
量 为 10，15 和 20 的 样本 。 利 用 附录 B 中 表 5 的 二 


项 概率 ， 选 择 一 个 抽样 方案 ， 要 求 满足 : 当 po = 
=0.30 时 ， 


0.05 时 ， 生 产 者 风险 为 @=0.03; 当 疡 
消费 者 风险 为 B=0 12。 





纠正 措施 的 建议 可 能 是 必要 的 。 


在 的 质量 控制 问题 ， 

我 们 还 讨论 了 被 称 为 接受 抽样 的 技术 ， 根 据 接 受 
抽样 程序 抽取 并 检验 一 个 样本 。 样 本 中 有 缺陷 项 目的 
个 数 提供 了 接收 或 碟 收 一 批 的 根据 。 为 了 控制 生产 者 
风险 (第 一 类 错误 ) 和 消费 者 风险 (第 二 类 错误 ) 可 
以 调整 样本 容量 和 接收 准则 。 





total quality (TQ) ”全面 质量 通过 不 断 改 进 和 学 习 
的 策略 以 提高 消费 者 满意 度 和 降低 实际 成 本 的 一 种 
全 面 的 系统 方法 。 

six sigma 六 西格玛 用 测量 和 统计 分 析 得 到 一 个 高 
质量 水 平 的 方法 ， 它 使 得 每 百 万 出 现 缺 陷 的 机 会 不 
超过 3.4。 

quality control 质量 控制 ”确定 是 否 达 到 质量 标准 的 
一 系列 检查 和 测量 行为 。 

assignable Causes 可 指出 的 原因 由 于 诸如 工具 的 
磨损 、 不 正确 的 机 器 安装 、 低 质量 的 原材料 或 者 操 
作 人 员 的 失误 等 因素 ， 使 得 过 程 的 产品 出 现 变异 性 。 
一 旦 发 现 产品 变异 性 的 可 指出 的 原因 ， 就 应 采取 纠 
正 措施 。 

common Causes “一般 原因 ”由 于 随机 性 ， 使 得 过 程 
的 产品 出 现 正 常 的 或 自然 的 变异 性 。 当 产品 的 变异 
性 来 源 于 一 般 原因 时 ， 不 需要 采取 纠正 措施 。 

control chart 控制 图 用 于 帮助 确定 一 个 过 程 是 处 于 
在 控 状态 还 是 失控 状态 的 一 种 图 形 工 具 。 , 

xchart x 控制 图 根据 一 个 变量 ， 如 长 度 、 重 量 、 
温度 等 的 均值 来 检测 一 个 过 程 的 产品 质量 时 所 使 用 
的 控制 图 。 

有 chart 用 控制 图 根据 一 个 变量 的 极 差 来 检测 一 个 
过 程 的 产品 质量 时 所 使 用 的 控制 图 。 


pchart p 控 制图 根据 缺陷 率 来 检测 一 个 过 程 的 产 
品质 量 时 所 使 用 的 控制 图 。 

np chart np 控制 图 根据 有 缺陷 项 目的 数量 来 检测 
一 个 过 程 的 产品 质量 时 所 使 用 的 控制 图 。 


lot 批 “一 组 项 目 ， 比 如 正在 进货 的 原材料 或 外 购 的 零 
部 件 以 及 来 自 总 装 线 的 制 成 品 。 

acceptance sampling 接受 抽样 ”通过 在 样本 中 发 现 
有 缺陷 项 目的 数量 来 决定 是 接收 还 是 碟 收 一 批 的 统 
计 方 法 。 

producer's risk ”生产 者 风险 ”拒绝 一 个 高 质量 批 的 风 
险 ， 也 称 为 第 一 类 错误 。 

consumer s risk ”消费 者 风险 ”接受 一 个 低 质 量 批 的 
风险 ， 也 称 为 第 二 类 错误 。 

acceptance criterion 接收 准则 在 样本 中 发 现 有 缺陷 
项 目的 最 大 数量 ， 并 且 仍 然 可 以 接收 该 批 。 

operating characteristic curve ”抽样 特性 曲线 ”显示 接 
受 一 批 概率 为 批 中 有 缺陷 项 目 百分比 的 函数 的 图 形 。 
这 条 曲线 可 以 用 于 确定 ， 某 个 特定 的 接受 抽样 方案 
是 否 同时 满足 生产 者 风险 和 消费 者 风险 的 要 求 。 

multiple sampling plan 多重 抽样 方案 ”利用 不 止 一 个 
样本 或 一 个 抽样 阶段 的 接受 抽样 方案 。 根 据 在 样本 
中 发 现 的 有 缺陷 项 目的 数量 ， 来 决定 是 接收 该 批 、 
拒 收 该 批 ， 还 是 继续 抽样 。 
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er 


均值 的 标准 误差 


2 后 (19-1) 
x 控制 图 的 控制 限 ; 过 程 的 均值 和 标准 差 已 知 
UCL = pw +30 (19:2) 
LCL = 1 -~ 30- (19-3) 
总 样本 均值 
十- 二 名， Gg 
平均 补差 
六 tt (19-5) 


x 控制 图 的 控制 限 : 过 程 的 均值 和 标准 差 未 知 
TA,R (19-8) 


R 控制 图 的 控制 限 


wi 


5 的 样本 ， 得 到 如 下 的 样本 均值 资料 。 

95.72 95.24 95.18 95.44 95.46 95.32 

95.40 95.44 95.08 95.50 

BUS 95,22 “953.04 993.2 

94.82 95.46 95.60 95.78 

a 根据 这 些 数据 ， 当 过 程 处 于 在 控 状 态 时 ， 均 值 
的 估计 值 是 多 少 ? 

b. 假设 过 程 的 标准 差 go =0.50， 构造 该 生产 过 程 的 控 
制图 ， 假 设 过程 的 均值 为 (a) 中 的 估计 值 。 

c. 这 20 个 样本 的 均值 是 否 表明 过 程 处 于 失控 状态 ? 


. 抽取 25 个 容量 为 5 的 样本 ， 得 到 =5.42,，R =2.0。 


计算 x 和 民 控 制图 的 控制 限 ， 并 估计 过 程 的 标准 差 。 
下 面 是 搜集 到 的 Master Blend Coffee 的 生产 过 程 的 
数据 。 数 据 显示 的 是 3 磅 重 的 听 装 咖啡 的 填 装 重 
量 。 利 用 这 些 数据 构造 x 和 民 控 制图 。 对 生产 过 程 


的 质量 可 以 得 出 什么 结论 ? 
| 观测 值 

科举 席 呈 1 2 3 4 5 
1 TR a 9, 1 3.11 
2 号 光 耳 和 3,10 
3 0s 3,10 
4 409 09 3 区 3.07 


2%. 


24. 


UCL = RD, 


(19-14) 
LCL = RD, (19-15) 
比例 的 标准 误差 
Cs = A (19-16) 
P 控制 图 的 控制 限 
UCL = p +30; (19-17) 
LCL = p -30 (19-18) 
mp 控制 图 的 控制 限 
UCL = np +3 vnp(l -pp) (19-19) 
LCL = np -3 Ynp(l] -7p) (19-20) 
接受 抽样 的 二 项 概率 函数 
! 四 
fr) PP ,M0 


( 续 ) 
观测 值 

得 宁 遍 晤 1 2 3 4 5 
5 3. 10 3, 06 3. 06 3; 07 3. 08 
6 3.08 3 0 3. 13 3.03 3, 06 
7 3. 06 3. 06 3.08 3 10 3. 08 
8 S 3. 08 3.07 3.07 3. 07 
9 3. 09 3.09 3.08 3.07 3. 09 
10 3. 06 -| 3.07 3. 09 3. 07 


1 200 个 零售 商店 的 管理 人 人 员 从 中 心 供应 仓库 每 月 

做 两 次 进货 订单 。 过 去 的 经 验 表明 ，4% 的 订单 至 

少 有 1 个 错误 ， 如 产品 装运 错误 、 装 运 数量 错误 和 

漏 装 了 已 经 预订 的 产品 。 每 个 月 抽取 200 份 订单 组 

成 随机 样本 ， 并 进行 准确 性 检验 。 

a. 构造 这 种 情况 控制 图 。 

b. 下面 是 6 个 月 中 至 少 有 1 个 错误 的 订单 数 : 10， 
15, 6, 13, 8 和 17。 将 这 些 数 据 绘 在 控制 图 
上 。 对 于 订单 过 程 ， 你 的 控制 图 说 明和 什么 问题 ? 

设计 的 接受 抽样 方案 为 n=15, c=1， 生 产 者 风险 

为 0.075。 

a, ps 的 值 是 0.01，0.02，0.03，0.04 或 0.05 吗 ? 
这 个 值 意味 着 什么 ? 

b. 如 上 果 pi =0:25， 则 这 个 方案 的 消费 者 风险 是 


多 少 ? 






































实践 中 的 统计 ; 美国 劳工 部 ， 克 工 统计 局 
20:41 ， 樟 化 
20.2 综合 物价 指数 


根据 价 比 计算 综合 物价 指数 
一 些 重 要 的 价格 指数 

根据 物价 指数 减 缩 一 个 数列 
物价 指数 : 其 他 注意 事项 
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实践 中 的 统计 
美国 劳工 部 ， 劳 工 统计 局 
华盛顿 特区 


美国 劳工 部 通过 其 下 属 的 劳工 统计 局 编 繁 并 发 布 
了 各 类 指数 及 其 他 统计 资料 ， 以 此 作为 反映 美国 商业 
和 经 济 活动 的 晴雨 表 。 例 如 ， 劳 工 统计 局 编纂 和 出 版 
消费 者 价格 指数 (CPI)、 生 产 者 价格 指数 (PPI) 以 
及 各 类 工人 的 平均 工作 时 间 与 收入 等 资料 。 在 劳工 统 
计 局 编制 的 指数 中 ， 应 用 最 广泛 的 是 消费 者 价格 指数 ， 
它 常常 被 用 于 测量 通货 膨胀 。 

2009 年 3 月 美国 劳工 统计 局 的 报告 显示 ,，2 月 的 
消费 者 价格 指数 上 涨 了 0.5% 。2 月 消费 者 价格 指数 的 
水 平 为 212.2， 与 2008 年 同期 相 比 高 出 了 0.3% 。 经 过 
季节 调整 后 ， 消 费 者 价格 指数 在 1 月 上 涨 0.3% 后，2 
月 又 上 涨 了 0.4% 。 汽 油价 格 指数 增长 8. 3% 似乎 是 上 


涨 的 主要 因素 ， 而 食品 类 指数 实际 上 下 降 0.1% 。 有 些 
经 济 学 家 认为 消费 者 价格 指数 上 涨 是 好 消息 ， 因 为 它 
可 能 缩短 了 通货 紧缩 的 周期 。 

儿 天 前 ， 劳 工 统计 局 的 报告 显示 ， 经 过 季节 调整 
后 的 生产 者 价格 指数 2 月 上 涨 了 0.1% ， 这 是 在 1 月 上 
涨 0.8% 和 前 一 年 12 月 下 降 1.9% 后 的 上 涨 。 生 产 者 价 
格 指数 用 于 测量 批发 市 场 的 价格 变动 ， 也 常常 被 看 作 
和 是 消费 者 价格 指数 变动 的 导向 指标 。2 月 较 慢 的 增长 
率 受 到 能 源 商品 增长 率 逐 渐 减 少 的 严重 影响 。 能 源 商 
吕 指 数 在 1 月 上 涨 3.7% 后 ,2 月 上 涨 了 1.39% 。 

本 章 我 们 将 介绍 各 种 指数 的 计算 ， 例 如 消费 者 价 
格 指数 、 生 产 者 价格 指数 等 ， 并 对 它们 加 以 说 明 。 


美国 政府 每 个 月 都 发 布 各 类 指数 ， 编 制 这 些 指 数 是 为 了 帮助 居民 了 解 当 前 的 商业 和 经 济 状 况 。 这 些 指数 中 被 
广 为 了 解 和 运用 的 是 消费 者 价格 指数 (CPI)。 顾 名 思 义 ,消费 者 价格 指数 是 消费 者 为 购买 的 物品 支付 的 价格 变动 
的 指示 器 。 特 别 地 ， 消 费 者 价格 指数 可 以 度量 一 段 时 间 内 的 价格 变动 。 给 定 一 个 开始 时 期 ， 也 称 为 基期 ， 其 指数 
为 100， 消 费 者 价格 指数 就 能 对 报告 期 的 消费 价格 与 基期 的 消费 价格 进行 比较 。 例 如 ， 消 费 者 价格 指数 为 125， 意 
味 着 报告 期 的 消费 价格 整体 上 比 基 期 大 约 提高 25% 。 尽 管 只 有 少数 居民 能 确切 理解 这 个 数字 的 含义 ,但 他 们 的 确 
知道 这 个 指数 ， 知 道 该 数值 的 增加 意味 着 价格 的 上 涨 。 

虽然 消费 者 价格 指数 可 能 是 最 为 著名 的 指数 ,但 是 还 有 许多 其 他 政府 和 私人 机 构 的 指数 ， 它 们 也 可 以 帮助 我 
们 度量 和 理解 如 何 将 一 个 时 期 的 经 济 状况 和 男 一 个 时 期 的 经 济 状况 进行 比较 。 本 章 的 目的 就 在 于 阐述 广 为 使 用 的 
几 种 指数 。 我 们 通过 编制 一 些 简 单 的 指数 ， 使 我 们 对 如 何 计算 指数 有 一 个 更 好 的 理解 。 


20.1 价 比 


价格 指数 最 简单 的 形式 ， 就 是 一 个 给 定 商品 项 目的 报告 期 单价 与 基期 单价 的 简单 对 比 。 例 如 ， 表 20-1 是 
1990 ~ 2011 年 每 加 仑 普通 汽油 的 成 本 资料 ， 为 了 方便 与 其 他 年 份 的 比较 ， 每 加 仑 汽油 的 现实 成 本 数据 可 转化 为 一 
个 价 比 (price relative) ， 即 将 每 一 时 期 的 单价 表示 为 基期 单价 一 个 百分数 。 


表 20-1 普通 汽油 的 成 本 ( 全 配方 ) 





每 加 仑 的 价格 每 加 仑 的 价格 每 加 仓 的 价格 每 加 仑 的 价格 

和 (美元 ) 人 (美元 ) 人 ( 美 先 ) 人 (美元 ) 
1990 1. 30 2008 3. 25 
1991 ssl 2009 2 3 
1992 1. 09 2010 2 78 
1993 7 2011 .52 
1994 1.08 

1995 | 





资料 来 源 : U.S. Energy Information Administration. 
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:其 的 虱 册 = 汪汪 和 (20-1) 


根据 表 20-1 的 资料 ， 以 1990 年 为 基期 ， 可 以 算出 从 1990 ~ 2011 年 每 加 仑 普通 汽油 的 价 比 ,将 它们 列 在 表 
20-2 中 。 通 过 了 解 价 比 ， 任 何 时 期 的 价格 就 很 容易 与 基期 的 价格 进行 比较 。 例 如 ，1995 年 的 价 比 为 85.4， 表 明 
汽油 价格 1995 年 比 1990 年 下 降 14. 6% ; 类 似 地 ，2002 年 的 价 比 为 103. 1， 表明 汽 油价 格 2002 年 比 1990 年 上 涨 
3.1% ; 2011 的 价 比 为 280. 8， 表 明 汽 油价 格 从 基期 1990 年 开始 上 涨 了 170. 8% 。 就 像 普通 汽油 等 现象 一 样 ， 价 比 
在 了 解 和 解释 经 济 与 商业 状况 随时 间 的 变动 方面 是 很 有 帮助 的 。 

表 20-2 一 加 仑 普通 汽油 的 价 比 


年 份 价 比 (以 1990 年 为 基期 ) 年 份 价 比 (以 1990 年 为 基期 ) 
1990 (1.30/1.30) x100 =100.0 2001 (1.42/1. 30) x100 =109. 2 
1991 (1.10/1.30) x100 =84.6 2002 (1.34/1. 30) x100 = 103. 1 
1992 (C1. 0971.30) x100 =83.8 2003 (1.56/1, 30) x100 =120.0 
1993 (1.0771.30) x100 =82. 3 2004 (1.8571. 30) x100= 142.3 
1994 (1.08/1.30) x100 =83. 1 2005 (2. 27 /1,30) x100 =174.6 
1995 (1.11/1.30) x100 =85.4 2006 (2.377Z1. 30) x 100 = 197.7 
1996 (1,22/1.30) x100 =93.8 2007 (2.80/1-30) x100 =215. 4 
1997 (1.2071.30) x100=92.3 2008 (3.2571. 30) x100 =250.0 
1998 (1.0371.30) x100 =79. 2 2009 (2. 3571. 30) x100 =180.8 
1999 (1. 14/1.30) x100=87.7 2010 (2.3871. 30) x100=213,% 
2000 (1.48/1.30) x100=113.8 2011 (3. 5271. 30) x 100 =270. 8 


20. 2 综合 物价 指数 
尽管 价 比 能 用 来 解释 单个 商品 项 目的 价格 随时 间 的 变动 情况 ， 但 我 们 通常 更 感 兴趣 的 是 一 组 商品 项 目 整体 上 
的 价格 变动 。 例 如 ， 我 们 想 要 一 个 指数 来 全 面 测量 生活 费用 随时 间 变 动 的 情况 。 我 们 希望 这 个 指数 以 各 种 生活 用 
品 的 价格 变动 为 依据 ， 包 括 食 品 、 住 房 、 服 装 、 交 通 运 输 和 医疗 保健 等 。 综 合 价 格 指数 (aggregate price index) 
就 是 为 了 度量 一 组 商品 项 目的 综合 变动 这 一 特殊 目的 而 编制 的 。 | 
以 普通 汽车 运行 费用 的 一 组 分 类 项 目 为 例 ， 我 们 考虑 综合 物价 指数 的 编制 。 为 了 方便 起 见 ， 我 们 只 考虑 汽 





油 、 润 清油 、 轮 胎 和 保险 费用 四 个 项 目 。 表 20-3 汽车 运行 费用 指数 的 数据 

表 20-3 是 1990 ~2011 年 上 述 四 个 项 目的 汽车 运行 费用 的 资料 。 人 人 人， 人 (FE 
以 1990 年 为 基期 的 四 个 项 目的 综合 物价 指数 ， 将 给 我 们 一 个 1990 ~ So 
2011 年 普通 汽车 运行 费用 变动 情况 的 测度 。 汽油 (加仑) 1. 30 3, 52 

未 加 权 综 合 物价 指数 是 报告 期 (如 2011 年 ) 单价 之 和 与 基期 ” 涧 滑 油 ( 寺 脱 ) 2.10 6. 25 
(如 1990 年 ) 单价 之 和 的 对 比 。 令 轮胎 130: 00 145. 00 

P, 表 示 :期 第 i 种 商品 的 单价 ，P,。 表 示 基 期 第 i 种 商品 的 单价 。 -保险 更 用 -82000 -100 
则 未 加 权 上 期 的 综合 物价 指数 也 可 表示 为 

ha se x 100 (20-2) 


式 中 ， 卫 表示 对 一 组 商品 项 目 中 的 所 有 项 目 求 和 。 
2011 年 (t=2011) 的 普通 汽车 运行 费用 的 未 加 权 综 合 物价 指数 为 


六 2 3.52 +6.25+145.00+1040:00 、100 -1194.7 
on ii 30 4 2 WM +1130.00.+.820;00 ”953. 40 


根据 未 加 权 综 合 物价 指数 ， 我 们 看 到 普通 汽车 运行 费用 的 价格 1990 ~2011 年 上 涨 了 25.3%。 但 值得 注意 的 
是 ， 汽车 运行 费用 的 未 加 权 综 合 指数 近似 于 一 个 复合 物价 指数 ， 它 受 单价 高 的 商品 项 目的 影响 严重 。 因 此 ， 像 汽 
油 、 润 滑 油 这 些 单价 较 低 的 商品 项 目 ， 就 受到 像 轮 胎 、 保 险 费 用 这 些 单价 较 高 的 商品 项 目的 制约 。 汽 车 运行 费用 
的 未 加 权 综 合 物价 指数 就 受 轮胎 和 保险 费用 价格 变动 的 影响 严重 。 





x 100 = 125. 3 
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由 于 未 加 权 综合 指数 受 一 个 或 多 个 高 价 商品 项 目的 影响 ， 因 此 ， 这 种 形式 的 综合 指数 应 用 并 不 广泛 。 当 商品 
项 目的 使 用 量 不 同时 ， 加 权 综合 物价 指数 给 出 了 -个 更 好 的 对 比方 法 。s 

加 权 综 合 物价 指数 (weighted aggregate price index) 的 原理 是 对 一 组 商品 项 目 中 的 每 一 个 商品 项 目 ， 依 据 其 重 
要 性 进行 加 权 。 在 大 多 数 情况 下 ， 商 品 的 使 用 量 是 测量 其 重要 性 的 最 好 尺度 。 因 此 ， 对 一 组 商品 项 目 组 合 中 的 每 
一 个 项 目 ， 需 要 有 其 使 用 量 的 资料 。 表 20-4 以 一 辆 每 年 大 约 行驶 15 000 英里 的 具有 代表 性 的 中 型 汽车 为 依据 ,给 
出 了 各 项 汽车 运行 费用 的 年 使 用 量 信息 。 表 中 列 出 的 数量 权 数 表明 。 表 20-4 汽车 运行 费用 指数 的 年 使 用量 信息 
该 车 行驶 情况 的 年 期 望 使 用 量 。 

令 0, 表 示 第 i 个 商品 项 目的 使 用 量 ， 则 :期 的 加 权 综 合 物价 指 







汽油 (加 仓 ) 





数 公 式 为 | 润滑 油 〔 夺 脱 ) 15 
i PQ, 中 轮 朋 2 
He FP.0. x 100 (20-3) 保险 费用 
要” 示 对 二 上 1 求 和 和 |。 汽车 以 每 年 行驶 15 000 英里 为 依据 ， 轮 胎 的 使 
式 中 ， 忆 表示 对 组 中 所 有 的 商品 项 目 求 前 量 罗 相生 丰 林 丰 力 90000 区 于 全 2， 


应 用 到 汽车 运行 费用 问题 ， 加 权 综 合 物价 指数 是 2011 年 总 运 
行 费用 与 1990 年 的 总 运行 费用 的 对 比 。 
令 t=2011， 根 据 表 20-4 中 的 数量 权 数 ， 我 们 可 以 得 出 2011 年 汽车 运行 费用 的 综合 物价 指数 为 


) -3.52.x1000 +6.25 x15 +145.00 x2 +1040.00 x1 00 -4943.75 
2 130x10004210x15 +130.00x24820.00x1 TA 


从 这 个 加 权 综 合 物价 指数 中 ， 我 们 可 以 得 到 汽车 运行 费用 的 价格 在 1990 ~2011 年 上 涨 了 105% 。 

显然 ， 与 未 加 权 综 合 物价 指数 相 比 ， 加 权 综 合 物 价 指数 更 准确 地 反映 了 1990 ~2011 年 汽车 运行 费用 的 价格 变动 。 
考虑 到 汽油 的 使 用 量 能 抵消 保险 费用 较 小 的 增长 速度 ， 因 此 ， 在 反映 汽车 运行 费用 增 速 方面 ， 加 权 综 合 指 数 比 未 加 
权 综 合 指数 有 较 大 增长 。 一 般 地 ， 以 使 用 量 为 权 数 的 加 权 综 合 指数 是 比较 适合 于 编制 一 组 商品 项 目的 价格 指数 。 

在 加 权 综 合 物价 指数 公式 (20-3) 中 ,我 们 注意 到 ， 数 量 0, 没 有 显示 时 间 的 第 2 个 下 标 ， 其 原因 是 数量 0 被 
看 成 是 固定 的 , 而 且 不 像 价 格 那样 随时 间 的 变动 而 变动 。 固 定 权 数 或 数量 是 被 指数 设计 者 指定 的 ， 其 水 平 被 认为 
是 具有 代表 性 的 使 用 量 。 一旦 0 得 到 确定 ， 它 们 在 编制 指数 的 各 个 时 期 内 保持 不 变 。 计 算 2011 年 以 外 其 他 年 份 
的 指数 ， 还 需要 搜集 新 的 价格 资料 P,， 但 权 数 0, 保 持 不 变 。 

以 基期 的 使 用 量 为 权 数 是 固定 权 数 的 加 权 综 合 指数 的 一 个 特殊 情形 。 在 这 种 情形 下 ，@i = Qu， 其 中 下 标 0 表 
示 基 期 。 因 此 式 (20-3) 变 为 


x 00= 205.0 


DP. 0 
之 PoQn 
以 基期 数量 为 权 数 的 加 权 综 合 指数 被 称 为 拉 斯 贝尔 指数 (Laspeyres Index) 。 

男 一 个 确定 权 数 的 方法 是 每 个 时 期 修正 数量 权 数 。 每 年 计算 指数 时 所 用 的 数量 为 @, ， 使 用 这 些 数 量 为 权 数 的 
期 的 加 权 综 合 物价 指数 为 





1 = x 100 (20-4) 


之 已 CO， 
之 PoQ， 

注意 ， 对 基期 (0 期 ) 和 :期 用 相同 的 数量 加 权 。 然 而 ， 若 权 数 是 以 :期 而 不 是 以 基期 的 使 用 量 为 依据 ， 则 加 
权 综 合 指数 被 称 为 派 许 指数 (Paasche Index) 。 以 报告 期 的 使 用 量 为 权 数 是 其 优点 ,但 这 种 计算 综合 指数 的 方法 也 
有 两 个 缺点 ; 一 是 通常 使 用 量 0;, 必 须 每 年 重新 确定 ， 因 此 ， 增 加 了 搜集 资料 的 时 间 和 成 本 ; 二 是 每 年 必须 重新 计 
算 前 一 年 的 指数 ， 以 反映 新 的 数量 权 数 的 效果 。 正 是 由 于 这 些 缺 点 ， 拉 斯 贝尔 指数 应 用 更 为 广泛 。 汽 车 运行 费用 
指数 是 以 基期 数量 为 权 数 计算 的 ， 因 此 它 是 拉 斯 贝尔 指数 。 若 使 用 2011 年 的 使 用 量 资料 ， 我 们 可 以 得 到 派 许 指 
数 。 的 确 ， 由 于 汽车 的 节能 性 提高 ,汽油 的 使 用 量 将 会 降低 ， 因 此 派 许 指数 就 会 不 同 于 拉 斯 贝尔 指数 。 


1， 三 





x 100 (20-5 ) 


加 如果 每 一 商品 项 目的 使 用 量 相同 ， 未 加 权 综合 指数 相当 于 权 数 相等 的 加 权 综 合 指数 。 但 在 实 碟 中 ， 各 个 商品 项 目的 使 用 量 相同 这 种 
情况 很 少 出 现 。 





yy Re el! 
方法 2008 年 和 2011 年 的 单价 及 2008 年 的 销售 数量 ( 单 
2， 某 个 商品 项 目 2011 年 的 成 未 为 10.75 美元 ; 以 1994 位 中 箱 ) 资料 如 下 : 
年 为 基期 ， 价 比 为 132。 | 2008 年 数量 单价 (美元 ) 
a 17 年 招 该 商品 项 目 成 本 上 升 或 下 降 的 百分比 是 ( 箱 ) 2008 年 2011 年 
多 少 ? 啤酒 35 000 17. 50 20. 15 
b，1994 年 该 商品 项 目的 成 本 是 多 少 ? je 2 Po 
软饮料 60 000 8. 00 8. 80 
应 用 
4. R&B 饮料 公司 通过 其 设 在 艾 奥 瓦 中 部 的 零售 网 点 ， 以 2008 年 为 基期 计算 2011 年 R&B 饮料 销售 的 加 
销售 其 生产 的 啤酒 、 莉 萄 酒 及 软饮料 等 全 部 产品 。 权 综 合 物价 指数 。 


20. 3 根据 价 比 计算 综合 物价 指数 
在 第 20. 1 节 我 们 给 出 了 价 比 的 定义 ,阐明 如 何 根据 报告 期 和 基期 的 单价 计算 价 比 。 现 在 ， 我 们 希望 说 明 ， 如 
何 像 第 20. 2 节 编 制 综合 物价 指数 那样 ， 根 据 一 组 商品 项 目 中 每 一 个 商品 项 目 价 比 的 信息 ， 直 接 计算 综合 物价 指 
数 。 由 于 未 加 权 指 数 的 局 限 ， 我 们 只 讨论 加 权 综 合 物价 指数 。 我 们 仍 以 上 一 节 的 汽车 运行 费用 指数 为 例 ， 所 需 的 
四 种 费用 的 资料 列 在 表 20-5 中 。 
表 20-5 汽车 运行 费用 指数 的 价 比 


商品 单价 (美元 ) 价 比 
项 目 1990 (局 ) 2011 (P,) (P,7P,) x100 年 用 量 
汽 酒 (加 仓 ) 1. 30 3.52 270.8 1000 
润滑 油 〔 夸 脱 ) 2.10 6.25 297.6 15 
轮胎 130. 00 145. 00 和 :性 2 
保险 费用 820.00 1 040. 00 126.8 1 
今 ww 是 适用 于 第 i 个 商品 项 目 价 比 的 权 数 ， 则 加 权 平 均 价 格 指数 的 一 般 形式 为 
A 
yi (20-6) 
2 20， 


适当 选择 式 (20-6) 中 的 权 数 ， 将 使 我 们 能 根据 价 比 计算 加 权 综 合 指数 。 适 当选 择 使 用 量 和 基期 价格 的 乘积 
为 权 数 ” ， 即 
wd, = Pl (20-7) 
将 式 (20-7) 的 权 数 ww 代入 式 (20-6) 中 ， 则 加 权 平 均 价 格 指数 可 表示 为 


P; 
pg 已， ok 


下 二 po < (20=8) 
对 上 式 进行 化 简 ， 可 得 加 权 平 均 价 格 指数 的 一 个 等 价 表达 式 为 
和 Pad x 100 
| 2 


因此 ， 我 们 看 到 以 w, = PoQ, 为 权 数 的 加 权 平均 价格 指数 ， 与 第 20. 2 节 介 绍 的 式 (20-3) 完全 相同 的 加 权 综 
合 物价 指数 。 在 式 (20-7) 中 使 用 基期 数量 〈 即 0,= @o) ， 可 以 寻 出 拉 斯 贝尔 指数 ; 在 式 (20-7) 中 使 用 报告 期 


加 ”价格 与 数量 的 单位 应 该 相 一 致 ， 即 如 果 给 的 是 每 箱 的 价格 ， 则 数量 就 应 为 箱 数 ， 而 不 应 为 其 他 的 单位 。 
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数量 ( 即 Q;=Qi)， 可 以 导出 派 许 指数 。 

让 我 们 回 到 汽车 运行 费用 的 资料 ， 利 用 表 20-5 中 的 价 比 和 式 (20-6)， 我 们 能 计算 出 价 比 加 权 平 均 指 数 。 利 
用 式 (20-7) 的 权 数 w,=P.,0;， 得 到 的 计算 结果 列 在 表 20-6 中 。 指 数 205 表明 汽车 运行 费用 增长 了 105% 。 这 与 
第 20.2 节 计 算 的 加 权 综 合 物价 指数 的 增长 幅度 相同 。 


表 20-6 根据 加 权 价 比 计算 的 汽车 运行 费用 指数 (1990 ~2011 年 ) 


商品 项 目 价 比 基期 价格 ( 美元 ) 数量 权 数 加 权 价 比 
(Pi/Pio) x100 Pn QQ w; = PoQ, ( Pi/Pn ) Ww; x 100 
汽油 270. 8 1. 30 1 000 1 300. 00 352 040. 00 
润滑 油 297.6 2. 10 15 31. 50 9 374.40 
轮胎 107.7 130. 00 260. 00 28 990. 00 
保险 费用 126.8 820. 00 | 820. 00 103 976. 00 
合计 2411.50 494 380. 40 
494 380. 40 
Tao0 = 2411.50 全 村 
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方法 价 、 ppp 
太 6. 2 基期 的 价格 和 使 用 买 入 价 现价 
股票 ga 股票 数量 
， 计 算 报 告 期 三 个 商品 项 目的 加 权 综 合 物 价 指数 。 (美元 / 股 ) (美元 / 股 ) 
= 基期 Holiday Trans 15, SO 17. 00 500 
es NTEieenid ”18.50 20.25 200 
A 150 22. 00 20 
B 90 5.00 50 KY Gas 26; 75 26. 00 500 
lc A PQ Soaps 42. 25 45. 50 300 
应 用 根据 该 投资 组 合 的 资料 编制 加 权 平 均 价 格 指数 ， 并 
8. 由 四 种 股票 构成 的 一 个 证 券 投 资 组 合 ， 它 们 的 买 入 解释 这 个 指数 。 


20. 4 ”一些 重要 的 价格 指数 


我 们 已 经 介绍 了 用 于 计算 单个 商品 项 目 或 一 组 商品 项 目的 价格 指数 。 现 在 我 们 来 考虑 度量 商业 和 经 济 状况 的 
一 些 重要 的 价格 指数 。 特 别 地 ， 我 们 将 考虑 消费 者 价格 指数 、 生 产 者 价格 指数 和 道琼斯 平均 指数 。 


20. 4. 1 消费 者 价格 指数 

消费 者 价格 指数 (consumer price index，CPI) ， 由 美国 劳工 统计 局 每 个 月 定期 公布 ， 是 美国 生活 费用 水 平 的 
基本 度量 。 用 于 编制 这 个 指数 的 商品 项 目 组 由 400 个 商品 项 目 构成 一 个 购物 篮 ， 购 物 篮 中 包括 食品 、 住 房 、 服 
装 、 交 通 运输 和 医疗 保健 等 商品 项 目 。 消 费 者 价格 指数 ”是 固定 权 数 的 加 权 综 合 物价 指数 。 通 过 对 全 美国 城市 家 
庭 的 定期 调查 ， 获 得 购物 篮 中 每 个 商品 项 目的 权 数 。 

以 1982 ~ 1984 年 的 消费 者 价格 指数 为 100，2012 年 2 月 的 消费 者 价格 指数 为 227.7。 这 意味 着 以 1982 ~ 1984 年 为 
基期 ， 目 前 购物 篮 中 的 货物 和 服务 的 消费 价格 上 升 了 127.7%s。 图 20-1 是 1960 ~2010 年 50 年 的 消费 者 价格 指数 的 时 
间 数 列 ， 从 该 图 形 上 可 以 看 出 ， 消 费 者 价格 指数 反映 出 20 世纪 70 年 代 后 期 到 80 年 代 初 期 是 通货 膨胀 剧烈 的 时 期 。 


加 ”消费 者 价格 指数 中 包括 服务 费 【( 例 如 ， 医 生 和 牙医 的 账单 ) 以 及 与 购买 和 使 用 每 种 商品 直接 相关 的 所 有 税 费 。 
昌 劳工 统计 局 实际 上 公布 了 两 个 消费 者 价格 指数 ， 一 个 是 所 有 城市 消费 者 的 消费 者 价格 指数 (CPI-U) ， 二 是 对 城市 工薪 阶层 和 文职 
人 员 的 修正 的 消费 者 价格 指数 (CPI-W) 。 甚 中 城市 消费 者 的 消费 者 价格 指数 应 用 比较 广泛 ， 它 由 《华尔街 明报 》 定 期 发 布 。 
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20-1 1960 ~2010 年 的 消费 者 价格 指数 (基期 1982 ~ 1984 年 =100 ) 


20. 4.2 生产 者 价格 指数 


生产 者 价格 指数 (producer price index，PPI) ， 也 是 由 美国 劳工 统计 局 每 个 月 定期 公布 ， 它 用 于 度量 美国 初级 
市 场 每 个 月 价格 的 变动 。 生产 者 价格 指数 依据 每 种 产品 在 非 零 售 市 场 上 首次 交易 时 的 价格 来 计算 ， 其 中 包括 在 市 
场 上 进行 交易 的 所 有 日 用 品 。 这 项 统计 调查 涵盖 了 原材料 、 在 每 个 加 工 阶 段 上 制造 和 加 工 的 产品 ， 也 包括 制造 
业 、 农 业 、 林 业 、 兆 业 、 采 矿业 和 电力 ， 以 及 公共 事业 等 各 行业 的 出 口 产品 。 这 个 指数 一 个 常见 的 用 途 是 作为 消 
费 者 价格 和 生活 费用 未 来 趋势 的 一 个 领先 指标 。 生 产 者 价格 指数 的 增长 将 导致 生产 价格 上 涨 ， 而 这 种 上 涨 通过 较 
高 的 零售 价格 ， 最 终 传递 给 消费 者 。 

生产 者 价格 指数 中 各 个 商品 项 目 权 数 的 依据 是 货物 的 价值 ， 是 根据 拉 斯 贝尔 方法 计算 的 加 权 平 均 价 格 指数 。 
以 1982 年 的 生产 者 价格 指数 为 100，2012 年 2 月 的 生产 者 价格 指数 为 201. 6。 


20. 4. 3 ”道琼斯 平均 指数 


道琼斯 平均 指数 (Dow Jones averages) “是 用 来 反映 普通 股票 价格 趋势 和 波动 变化 的 指数 。 最 著名 的 道琼斯 指 
数 是 道琼斯 工业 平均 指数 (DJIA) ， 它 是 根据 30 家 大 公司 的 普通 股 表 20-7 道琼斯 工业 平均 指数 使 用 的 


票 价格 计算 出 来 的 。 它 是 这 些 股票 价格 的 总 和 与 一 个 数 相 除 得 到 30 家 公司 (2012 年 2 月 ) 
的 ， 这 个 数 因为 该 指数 公司 拆 股 和 股票 转换 而 需要 不 断 调整 修订 。 Sm ， 二 二 人 
它 不 像 我 们 已 学 过 的 其 他 价格 指数 ， 道 琼斯 工业 平均 指数 不 能 表示 。 美国 运通 a 
为 基期 价格 的 一 个 百分数 。 表 20-7 是 2012 年 2 月 讨 算 道琼斯 工业 “美国 电话 电报 公司 通用 电气 微软 
平均 指数 所 使 用 的 30 家 具体 公司 。 I 
道琼斯 平均 指数 还 有 20 种 交通 运输 股票 指数 和 15 种 公用 事业 “卡特 全 和 [BM 旅行 者 
股票 指数 。 道 琼斯 平 均 指数 每 天 都 会 被 计算 出 来 ， 并 在 《华尔街 目 。 雪人 条 估 。。 联 全 和 
报 》 和 其 他 金融 出 版 物 上 发 布 。 和 J 


加 生产 者 价格 指数 只 是 对 本 国产 品 价格 变动 的 测度 ， 进 口 产品 不 包括 在 内 。 
加 ”查尔斯 - 亭 利 . 道 于 1884 年 7 月 3 日 在 “Customer's Afternoon Letter” 上 首次 发 表 了 他 的 股票 平均 价格 指数 。 在 最 初 的 指数 中 包括 11 
只 股票 ， 其 中 9 只 是 铁路 股票 。1928 年 10 月 1 日 首次 公布 了 可 比 的 道琼斯 工业 平均 指数 。 


510 商务 与 经 济 统计 


20.5 根据 物价 指数 减 缩 一 个 数列 


许多 随时 间 变 动 的 商业 和 经 济 数 列 ， 例 如 公司 销售 额 、 工 业 销 售 额 和 库存 等 ， 它 们 都 是 以 美元 计量 的 。 随 着 
时 间 的 推移 ， 这 些 数 列 经 常 呈 现 出 不 断 增长 的 模式 ， 这 种 增长 通常 解释 为 与 这 些 活动 相关 的 实物 量 的 增长 。 例 
如 ,库存 总 金额 (美元) 上升 10% ， 可 能 被 解释 为 库存 实物 总 量 增 加 了 10% 。 如 果 一 个 时 间 数 列 以 美元 计量 ， 
这 样 的 解释 可 能 会 引起 误导 ， 因 为 总 金额 的 变动 包含 价格 和 数量 两 种 。 因 此 ， 在 一 段 时 间 内 ， 当 价格 的 变动 显著 
时 ， 如 果 我 们 不 调整 时 间 数 列 ， 以 消除 价格 变动 的 影响 ， 则 总 金额 的 变动 就 不 可 能 反映 数量 的 变动 。 

例如 ，1976 ~ 1980 年 ， 建 筑 业 的 支出 总 额 增长 了 大 约 75% 。 该 数字 表明 建筑 业 有 很 好 的 增长 态势 。 但 是 ， 建 
筑 物 的 价格 上 升 迅 猛 ， 有 时 甚至 超过 75% 。 事 实 上 ， 当 建筑 业 的 支出 总 额 增长 时 ， 在 不 断 有 新 房 开 工 的 情况 下 ， 
建筑 业 却 保持 相对 稳定 ， 甚 至 是 下 降 的 。 为 了 正确 地 理解 1976 ~ 1980 年 的 建筑 业 状 况 ， 我 们 需要 用 一 个 价格 指数 
来 调整 总 支出 数列 ， 以 消除 价格 上 涨 带 来 的 影响 。 每 当 我 们 对 一 个 时 间 数 列 进行 调整 ， 以 消除 价格 上 涨 的 影响 


时 ， 我 们 说 : 我 们 正在 减 缩 时 间 数 列 。 

对 于 个 人 的 收入 和 工资 ,我 们 常 第 昕 到 有 关 “ 实 际 工 
资 ”< 或 工资 的 “购买 力 ”等 问题 的 讨论 。 这 些 概 念 都 是 以 
减 缩小 时 工资 的 想法 为 依据 。 例 如 ， 图 20-2 是 2007 ~ 2011 
年 电工 的 小 时 工资 曲线 ， 从 图 上 看 到 工资 有 明显 的 上 涨 趋 
势 ， 从 每 小 时 23. 12 美元 增加 到 每 小 时 25. 44 美元 。 对 小 时 
工资 这 样 的 上 涨 电工 是 否 满意 ? 应 该 根据 他 们 工资 的 购买 力 
是 否 增长 来 回答 这 个 问题 。 如 果 我 们 可 以 对 2007 年 每 小 时 
工资 23. 12 美元 的 购买 力 与 2011 年 每 小 时 工资 25.44 美元 
的 购买 力 进行 比较 , 我 们 将 能 更 好 地 判断 工资 的 相对 增加 
情况 。 

表 20-8 列 出 了 2007 ~2011 年 的 小 时 工资 率 与 消费 者 价 
格 指 数 (以 1982 ~ 1984 年 = 100 ) 。 利 用 这 些 数 据 ， 我 们 将 
表明 如 何 利用 消费 者 价格 指数 来 减 缩 小 时 工资 指数 。 每 年 的 
小 时 工资 率 除 以 当年 相应 的 消费 者 价格 指数 的 数值 ， 再 乘 以 


小 时 工资 〈 美 元 ) 





图 20-2 电工 现实 的 小 时 工资 


100， 得 到 了 减 缩 的 数列 。 表 20-9 给 出 了 电工 减 缩 后 的 小 时 工资 指数 ， 图 20-3 显示 了 减 缩 的 或 实际 的 工资 曲线 。 
表 20-8 2007 ~2011 年 电工 的 小 时 工资 和 消费 者 价格 指数 


年 份 小 时 工资 消费 者 价格 指数 
(美元 ) ( CPI) 

2007 23542 207.3 

2008 23. 98 2t 3 

2009 24. 45 214.5 


资料 来 源 : 美国 劳工 统计 局 。 消 费 者 价格 指数 以 1982 ~ 1984 年 =100 计算 。 
表 20-9 2007 ~2011 年 电工 小 时 工资 的 减 缩 数 列 


减 缩 后 的 小 时 工资 
Lay (美元 ) 
2007 (23, 127297: 30 x100 =11. 15 
2008 (23. 98/215.3) x100 =11,14 
2009 (24.45/214.5) x100 =11. 40 


加 对 时 间 数 列 进行 减 缩 可 以 消除 通货 膨胀 的 影响 。 


年 份 


年 份 


2010 
2011 


小 时 工资 消费 者 价格 指数 
(美元 ) (CPI) 
24. 91 218. 1 
25. 44 224.9 
减 缩 后 的 小 时 工资 
(美元 ) 


(24. 91/218. 1) x100 =11. 42 
[25. 44/224,9) x100=11.31 


名 ”实际 工资 比 现 实 工资 更 能 测量 购买 力 。 的 确 ， 许 多 劳工 合同 都 要 求 工 资 依据 生活 费用 的 变动 加 以 调整 。 
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对 于 2007 ~2011 年 电工 的 实际 工资 或 购买 力 ， 工资 的 减 缩 数 列 能 说 明 什么 问题 呢 ? 根据 基期 的 价格 (以 
1982 ~ 1984 年 =100) ， 小 时 工资 率 在 这 有 段 时 间 内 几乎 是 平坦 的 。 在 消除 了 通货 膨胀 的 影响 之 后 ， 我 们 发 现 工人 的 
购买 力 四 年 间 仅 增 加 了 0. 16 美元 ， 图 20-3 很 清晰 地 反映 出 这 一 点 。 因 此 ， 用 物价 指数 来 减 缩 一 个 时 间 数 列 的 优 
点 是 : 我 们 对 实际 货币 正在 发 生 的 变动 有 一 个 更 清楚 的 描述 。 


11.70 

11.50 
IR 11.30 
祷 
区 11.10 
E34 
10.90 
后 

10.70 

10.50 

2007 2008 2009 2010 2011 


年 
图 20-3 2007 ~2011 年 电工 实际 的 小 时 工资 


一 个 随 着 时 间 推 移 的 数列 进行 减 缩 的 方法 ， 在 计算 国内 生产 总 从 上 有 重要 应 用 。 国 内 生产 总 值 是 一 个 国家 生 
产 的 全 部 产品 和 服务 的 总 价值 。 显 然 ， 如 果 不 用 价格 指数 减 缩 国内 生产 总 值 ， 随 着 时 间 的 推移 ， 国 内 生产 总 值 将 
会 随 着 价格 的 上 涨 而 增长 。 因 此 ， 要 调整 产品 和 服务 的 总 价值 ， 以 反映 生产 和 销售 的 产品 、 服 务 的 实际 数量 的 变 
动 ， 国 内 生产 总 值 就 必须 用 一 个 价格 指数 来 减 缩 计算 。 这 一 方法 同 实际 工资 的 计算 方法 类 似 。 





应 用 格 指数 如 下 表 所 示 。 


六 10. 注册 护士 每 小 时 平均 工资 2007 年 为 30.04 美元 ， 和 制造 业 的 总 产值 消费 者 价 生产 者 价 
2011 年 为 33.23 美元 。 消 费 者 价格 指数 2007 年 为 (10 亿美 元 ) 格 指数 格 指数 
207.3，2011 年 为 224.9， 回 答 下 列 问题 。 2009 29. 1 216.0 173.4 
a_ 减 缩 注 册 护 士 的 2007 年 与 2011 年 的 小 时 工资 2010 5 218.4 180. 2 

率 ， 并 求 出 实际 工资 率 。 2011 32.9 226.9 192.5 
b， 对 注册 护士 ，2007 ~ 2011 年 现实 的 小 时 工资 变 jy ye ne ve 
动 的 百分比 是 多 少 ? a 用 消费 者 价格 指数 减 缩 计算 机 和 电子 产品 的 总 
c. 对 注册 护士 ，2007 ~2011 年 实际 小 时 工资 变动 产值 。 
的 百分比 是 多 少 ? b. 用 生产 者 价格 指数 减 缩 计算 机 和 电子 产品 的 总 
12. 美国 人 口 普查 局 追踪 从 制造 业 到 零售 业 的 产品 总 产值 
值 。2009 ~2011 年 9 月 的 计算 机 和 电子 产品 的 总 c. 你 认为 消费 者 价格 指数 和 生产 者 价格 指数 哪 一 
产值 以 及 这 些 月 份 的 消费 者 价格 指数 和 生产 者 价 个 更 合适 于 减 缩 这 些 总 产值 ? 为 什么 ? 


20.6 物价 指数 : 其 他 注意 事项 

在 前 面 几 节 中 ， 我 们 描述 了 几 种 计算 物价 指数 的 方法 ， 讨 论 了 一 些 重 要 的 物价 指数 的 应 用 ， 并 且 介 绍 了 用 物 
价 指数 来 减 缩 时 间 数 列 的 步骤 。 但 为 了 加 深 我 们 对 编制 物价 指数 及 其 用 途 的 了 解 ， 还 必须 考虑 一 些 其 他 问题 。 这 
些 问 题 将 在 本 节 进 行 讨论 。 


512 商务 与 经 济 统计 


20. 6. 1 商品 项 目的 选择 


物价 指数 的 首要 目的 在 于 测量 指定 的 一 类 商品 项 目 、 产 品 等 的 价格 随时 间 推 移 而 发 生 的 变动 。 由 于 同类 商品 
的 项 目 很 多 ， 所 以 不 能 以 这 一 类 中 的 所 有 商品 项 目 为 依据 来 编制 指数 。 因 此 ， 必 须 选 用 一 个 具有 代表 性 的 商品 项 
目的 样本 。 我 们 搜集 被 抽取 的 商品 项 目的 价格 和 数量 资料 ， 布 望 它们 能 较 好 地 反映 指数 所 要 描述 的 所 有 商品 项 目 
的 价格 变动 情况 。 例 如 ， 对 于 消费 者 价格 指数 ， 在 正常 购买 的 商品 项 目 总 体 中 ， 一 名 消费 者 要 考虑 的 商品 项 目 总 
数 可 能 在 超过 2 000 种 以 上 , 但 是 消费 者 价格 指数 仅 以 400 种 商品 的 价格 为 依据 。 消 费 者 价格 指数 中 具体 商品 项 
目的 选择 不 是 一 件 简单 的 事情 。 它 是 通过 对 用 户 购买 模式 的 调查 ， 以 及 良好 的 判断 力 来 选择 进入 样本 的 400 种 商 
品 项 目 ， 但 不 能 用 简单 随机 抽样 来 选择 。 

在 最 初 的 商品 项 目 选 定 之 后 ,每 当 购 买 模式 发 生 改 变 时 ， 还 必须 定期 对 指数 中 的 商品 项 目 进行 再 审查 与 修 
订 。 于 是 ， 在 编制 和 再 修订 指数 之 前 ， 必 须 解 决 的 问题 是 指数 应 包含 哪些 商品 项 目 。 


20. 6.2 ”基期 的 选择 


许多 指数 都 是 以 某 个 特定 时 间 为 基期 ， 以 基期 值 为 100 来 编制 的 。 因 此 ， 指 数 的 所 有 未 来 值 都 与 基期 值 息 息 
相关 。 然 而 ， 对 一 个 指数 来 说 ， 什 么 样 的 基期 才 是 合适 的 呢 ? 这 是 一 个 难以 回答 的 问题 ， 需 要 根据 指数 编制 者 的 
判断 来 回答 。 

2011 年 美国 政府 编制 的 许多 指数 都 以 1982 年 为 基期 。 作 为 一 个 普遍 的 准则 ， 基 期 不 应 与 报告 期 离 得 太 远 。 
例如 ， 对 大 多 数 人 来 说 ， 以 1945 年 为 基期 计算 的 消费 者 价格 指数 是 难以 理解 的 ， 因 为 人 们 不 熟悉 1945 年 的 生活 
情况 。 因 此 ， 许 多 指数 的 基期 需要 定期 调整 为 较 近 的 时 期 。 在 1988 年 ， 消 费 者 价格 指数 的 基期 从 1967 年 调整 为 
1982 ~ 1984 的 平均 数 ， 生 产 者 价格 指数 目前 以 1982 年 为 基期 ( 即 以 1982 年 =100)。 


20. 6. 3 ”品质 的 改变 

物价 指数 的 目的 是 测量 价格 随时 间 的 推移 而 发 生 的 变动 。 理 想 的 做 法 是 搜集 相同 的 商品 项 目 在 几 个 不 同时 期 
上 的 价格 资料 ， 然 后 计算 指数 。 一 个 基本 假设 是 在 每 一 个 时 期 ， 相 同 商品 项 目的 价格 是 确定 的 。 当 一 种 产品 因 时 
间 推 移 而 发 生 品 质 改变 时 ， 就 可 能 出 现 间 题 。 例 姐 ， 一 个 制造 商 年 复 一 年 地 发 生 使 用 廉价 的 原料 、 减 少 产 品 的 功 
能 等 问题 ， 则 可 能 会 改变 产品 的 品质 。 在 接 下 来 的 年 份 里 ， 该 产品 的 价格 可 能 上 升 ， 但 这 个 价格 所 对 应 的 产品 品 
质 却 在 下 降 。 因 此 ， 茶 种 商品 项 目的 实际 价格 可 能 上 涨 得 比 定价 显示 得 要 高 。 对 于 一 种 品质 下 降 的 商品 项 目 ， 调 
整 指数 即使 是 可 能 的 ， 也 是 困难 的 。 

品质 的 重大 改变 也 能 引起 产品 价格 的 上 涨 ， 因 此 在 计算 指数 时 ， 应 该 删除 因 品 质 改 变 而 导致 价格 上 涨 的 部 
分 。 但 是 ， 当 一 种 商品 项 目 因 品质 提高 而 导致 价格 上 涨 时 ， 调 整 指数 即使 是 可 能 的 ， 也 是 困难 的 。 

虽然 ， 在 编制 物价 指数 时 ， 通 常 的 做 法 是 忽视 微小 的 品质 改变 ,但 是 重大 的 品质 改变 必须 考虑 ， 因 为 随 着 时 
间 的 积累 它们 可 以 改变 产品 的 性 能 。 如 果 产 品 的 性 能 发 生 了 改变 ; 指数 就 必须 为 此 加 以 修订 。 在 某 些 情况 下 ， 该 
产品 可 能 会 从 指数 的 计算 中 删除 。 

但 是 ， 在 某 些 情况 下 ,伴随 着 品质 的 重大 改变 是 价格 的 下 降 ; 这 个 极为 典型 的 情形 体现 在 20 世纪 90 年 代 以 
及 21 世纪 早期 的 个 人 电脑 的 案例 上 。 


20. 7 ” 物 量 指数 


除了 前 面 几 节 所 描述 的 物价 指数 以 外 ， 其 他 类 型 的 指数 也 是 有 用 的 。 特 别 地 ， 指 数 的 另 一 个 应 用 是 测定 物 量 
随时 间 的 推移 而 发 生 的 变动 。 这 种 类 型 的 指数 被 称 为 物 量 指数 ( quantity index) 。 

回顾 第 20; 2 节 中 所 讨论 的 加 权 综 合 物价 指数 ， 为 了 计算 上 期 的 指数 ,我 们 需要 基期 单价 〈(P,) 和 + 期 的 单价 
(P,)。 式 (20-3) 给 出 的 加 权 综 合 物价 指数 的 公式 为 
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二 也 硬 pi 
,时 Po 
分 子 P,Q, 表 示 i 期 各 个 指数 项 目 固 定数 量 的 总 价值 ， 分母 了 P,Q, 表示 基期 各 个 指数 项 目 相 同 数 量 的 总 
价值 。 
加 权 综 合 物 量 指数 的 计算 与 加 权 综 合 物价 指数 的 计算 类 似 。 对 每 一 种 商品 项 目 在 基期 和 :期 的 数量 进行 测量 ， 
分 别 用 Qi;, 和 0Q, 表 示 第 i 种 商品 项 目 在 基期 和 :期 的 数量 。 然 后 ， 对 数量 用 一 个 固定 的 价格 、 增 加 值 或 其 他 因素 进 
行 加 权 。 产 品 的 “增加 值 ” 是 销售 额 减 去 投入 的 购买 成 本 ， 则 :期 的 加 权 综 合 物 量 指数 的 计算 公式 为 
| Qa, 
> Qiow; 
在 有 些 物 量 指数 中 ， 使 用 第 i 项 商品 项 目 基 期 的 价格 (Pu) 为 权 数 ,这 种 情形 下 的 加 权 综 合 物 量 指数 为 
DP 
| ZiOoPa 
物 量 指数 也 可 以 用 物 量 比 的 加 权 形 式 来 计算 ， 这 种 方法 的 物 量 指数 公式 的 公式 为 
之 oh 
六 0 (20-11) 
这 个 公式 是 第 20. 3 节 中 的 加 权 价 比 指 数 公 式 (20-8) 的 数量 表现 形式 。 
由 美国 联邦 储备 局 编制 的 工业 生产 指数 (index of industrial production) 可 能 是 最 著名 的 物 量 指数 ， 它 以 2002 
年 为 基期 ， 且 每 个 月 发 布 一 次 。 编 制 该 指数 的 目的 是 为 了 度量 各 类 制造 业 生 产 水 平 的 数量 变动 ， 但 不 包括 采矿 业 
和 公用 事业 。2012 年 2 月 该 指数 为 96. 2。 


x 100 


x 100 (20-9) 


x 100 (20=10) 





方法 应 用 
六 14. 下 面 是 三 个 商 吕 项 目 1997 年 和 2011 年 的 销售 量 及 16. 下 表 是 一 个 汽车 销售 商 1994 年 和 2011 年 销售 三 种 
1997 年 的 销售 价格 数据 ， 计算 2011 年 的 销售 量 的 型 号 汽车 的 销售 量 数据 ， 计 算 物 量 比 ， 并 利用 物 量 
加 权 综 合 指数 。 比 编制 2011 年 的 加 权 综 会 物 量 指数 。 

商品 销售 量 单价 《美元 ) 型 号 销售 量 1994 年 平均 售 价 

项 目 1997 年 2011 年 1997 1994 年 2011 年 (美元 ) 

A 350 ; 7 300 18. 00 Sedan 200 170 15 200 

B 220 400 4.90 Sport 100 80 17 000 

C 730 850 15.00 Wagon 75 60 16 800 





在 商业 和 经 济 环境 中 ,价格 指数 和 物 量 指数 是 价 ”“ 权 的 方法 来 计算 : 

格 和 数量 变动 的 重要 测度 。 价 比 是 某 一 商品 项 目 报告 消费 者 价 梅 指数 和 生产 者 价格 指数 是 两 个 应 用 广 
期 与 基期 单价 之 比 再 乘 以 100。 如 果 价 比 为 100， 则 说 泛 的 指数 ， 它 们 分 别 以 1982 ~ 1984 年 和 1982 年 为 基 
明报 告 期 的 奉 焰 写 星 其 的 价格 没有 绽 别 。 编 制 综 合 物 期。 道琼斯 工业 平均 价格 指数 是 另 一 个 应 用 广泛 的 物 
价 看 数 是 对 一 锚 络 定 乓 商品 项 目 或 产品 的 全 部 价格 变价 指数 ， 它 是 纽约 股票 交易 所 上 市 的 30 家 大 公司 的 阁 
动 进 行 综合 度量 。 通 常 ， 一 个 加 权 综 合 物价 指数 中 的 。 通 般 票 价格 的 加 权 和 s 和 许多 其 他 指数 不 同 ,- 它 不 能 
商品 项 目 被 它们 的 使 用 量 加 权 。 才 权 综 侣 物价 指数 也 表示 为 基期 数值 的 百分数 。 

可 以 利用 指数 中 商品 项 目的 使 用 量 ， 用 对 价 比 进行 加 物价 指数 经 常用 于 减 缩 一 些 随 时 间 推 移 而 变动 的 
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经 济 数列 。 我 们 介绍 了 如 何 用 消费 者 价格 指数 减 缩 每 
小 时 的 工资 ， 从 而 得 到 实际 工资 指数 。 选 择 指 数 中 所 





天 键 术 语 


Price relative 价 比 ”一 个 给 定 商品 项 目的 一 种 物价 指 
数 ， 它 用 该 商品 项 目 报告 期 的 单价 与 基期 的 单价 对 
比 再 乘 以 100 来 计算 。 

Aggregate price index 综合 物价 指数 ”根据 一 组 商品 
项 目的 价格 而 得 出 的 一 种 复合 物价 指数 。 

Weighted aggregate price index ”加权 综合 物价 指数 

对 一 组 商品 项 目的 价格 ， 依 据 各 自 的 重要 性 进行 
加 权 而 得 到 的 一 种 复合 物价 指数 。 

Laspeyres index 拉 斯 贝尔 指数 ”以 每 一 种 商品 项 目 
的 基期 数量 作为 权 数 的 加 权 综 合 物价 指数 。 

Paasche index 派 许 指数 ”以 每 一 种 商品 项 目的 报告 
期 数量 作为 权 数 的 加 权 综 合 物 价 指数 。 

Consumer price index (CPI) 消费 者 价格 指数 每 


个 月 定期 发 布 的 一 种 物价 指数 ， 它 利用 购物 篮 中 的 





重要 公 孔 


! 期 的 价 比 





_ 于 期 的 价格 | 
1 期 的 价 比 = 天 期 的 价格 x 100 (20-1) 
t 期 的 未 加 权 综 合 物价 指数 
Ps 
1 = Fp > 100 (20-2) 
tt 期 的 加 权 综 合 物价 指数 
1 = Fe: 100 (20-3) 


‘mS Pd 





基期 数量 单位 平均 运费 (美元 ) 

二 2005 年 2005 年 2011 年 
A 2 000 10. 50 15. 90 
B 5 000 16. 25 32. 00 
C 6 500 12. 20 17. 40 
D 2 500 20. 00 35. 50 


a 计算 每 种 产品 的 价 比 。 
b. 计算 反映 四 年 来 运输 费用 变动 的 加 权 综 合 物价 


包 会 的 商品 项 目 、 选 择 指数 的 基期 ， 以 及 因 上 品质 改变 





而 变动 的 一 种 物 量 指数 。 


而 进行 的 调整 ， 是 编制 指数 时 重要 的 其 他 注意 事项 。 
物 量 指数 的 讨论 较为 简单 皂 要 ， 工 业 生 产 指数 是 作为 


一 个 重要 的 物 量 指数 而 被 提 及 。 


be 4 | 
,a 3 i 
. | py 
| 


商品 和 服务 的 价格 变动 来 度量 消费 价格 随时 间 的 推 

移 而 发 生 的 变动 。 

Producer price index 生产 者 价格 指数 每 月 发 布 一 
次 的 一 种 物价 指数 ， 旨 在 度量 初级 市 场 上 销售 的 商 
品 〈 邑 在 非 零售 市 场 上 首次 购买 某 种 商品 ) 的 价格 
变动 的 情况 。 

Dow Jones averages ”道琼斯 平均 指数 ”是 用 来 显示 
在 纽约 证 券 交 易 所 上 市 的 普通 股票 价格 趋势 与 波动 
变化 的 一 种 综合 物价 指数 。 

Quantity index ” 物 量 指数 ” 旨 在 度量 物 量 随时 间 的 推 
移 而 变动 的 一 种 指数 。 

Index of industrial production ”工业 生产 指数 旨 在 度 

量 工业 产品 实物 量 或 工业 生产 水 平 随 着 时 间 的 推移 





MR 
or ea 





一 一 一 一 x100 


式 〈20-6) 的 权 数 
wi = PioQ. 

加 权 综 合 物 量 指数 
下 之 Quo 
Oo 


指数 。 


20，Boran 证 券 经 纪 人 有 限 公 司 选择 四 只 股票 来 编制 反 
映 股 票 市 场 行情 的 指数 。 以 2009 年 为 基期 ， 四 只 
股票 2011 年 1 月 及 3 月 的 每 股价 格 如 下 表 所 示 。 
基期 的 数量 以 四 只 股票 的 历史 数量 为 基础 。 


x 100 





股票 “行业 Wp 每 股价 格 (美元 ) 
2009 基期 2011 年 1 月 2011 年 3 月 
A ”石油 100 31. 50 22.75 22. 50 
B 计算 机 150 65. 00 49. 00 47. 50 
C 钢铁 75 40. 00 32. 00 29. 50 
D 房地产 50 18. 00 6. 50 3. 75 


2 


24. 


以 2009 年 为 基期 ， 计 算 2011 年 1 月 和 3 月 的 Bo- 
ran 指数 ， 该 指数 告诉 你 有 关 股 票 市 场 生 产 的 情 
况 ， 对 此 有 何 评论 。 

假设 在 2001 年 平均 一 个 男 用 市 须 刀 需 购买 一 个 痢 
丸 手 柄 和 使 用 17 个 刀片 ，2001 ~ 2011 年 的 价 比 如 
下 表 所 示 。 根 据 2011 车 加 权 价 比 编制 男 用 剃 须 刀 
费用 指数 。 


商品 项 目 2001 平均 基期 价格 2001 ~2011 年 


使 用 量 (美元 ) 价 比 
剃 须 栖 1 7.46 126. 9 
刀片 17 1.90 15977 


精算 师 是 精通 风险 数学 的 分 析 师 。 精 算 师 常常 受 
雇 于 保险 公司 ， 并 负责 设置 保险 费用 。 下 表 是 
2008 ~ 2011 年 精算 师 的 中 位 数 年 薪 ， 同 时 给 出 了 
每 一 年 的 消费 者 价格 指数 (U. S. Census Bureau ) 。 
用 消费 者 价格 指数 减 缩 年 薪 数 据 为 不 变价 ， 以 不 
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变价 评论 年 薪 的 变化 。 
A oe 
2008 84 810 
2009 87 210 
2010 87 650 
2011 91 060 


[a 
[2 


消费 价格 指数 


2135, 3 
214.5 
218. 1 
224.9 


. 一 个 大 型 制造 公司 2007 年 和 2011 年 的 产量 和 产值 


资料 如 下 表 所 示 。 根 据 这 些 资料 ， 计 算 加 权 综 合 物 
量 指数 。 评 论 该 物 量 指数 的 含义 。 


产品 


A 


数量 
2007 年 
800 
600 
200 


2011 年 产值 (美元 ) 
1 200 30. 00 
500 20, 00 
500 25. 00 


7 
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昌 Fao og Ew fe 7 -A 
人 
个 ( 原 书 第 12 版 ) 


这 是 一 本 广泛 流行 于 美国 高 校 并 被 誉 为 最 经 典 的 商务 统计 教材 ! 该 书 在 中 国 引进 十 多 年 间 ， 
一 直 被 北京 大 学 、 清 华 大 学 、 中 国人 民 大 学 、 复 旦 大 学 、 上 海 交通 大 学 、 南 开 大 学 和 中 山大 学 和 
众多 高 校 采用 ， 深 受 师 生 推崇 和 喜爱 。 


应 用 性 强 是 本 书 的 最 大 特色 。 第 12 版 在 保留 了 以 前 版 本 的 叙述 风格 和 可 读 性 的 基础 上 ， 对 
内 容 进行 了 一 定 的 修订 ， 对 个 别 章 节 做 了 更 为 合理 的 调整 ， 并 更 新 了 一 定数 量 的 习题 。 作 者 精心 
设计 了 “方法 ”“ 应 用 ”和 “补充 练习 ”三 种 题 型 ， 并 设计 了 起 提示 、 总 结 和 建议 作用 的 “注释 
和 评论 ”， 这 些 都 体现 出 本 书 的 实用 特点 。 4 

本 书 适合 本 科 生 、MBA 和 研究 生 等 多 层次 学 者 学 习 ， 也 可 作为 从 事 工商 行政 管理 和 经 济 分 
析 的 各 类 人 员 手 边 的 工具 参考 书 。 
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